Questions tagged «large-data»

“大数据”是指观测(数据点)的数量如此之大,以至于需要改变数据分析师思考或进行分析的方式的情况。(不要与“高维度”相混淆。)

1
测试大型数据集的正态性-可靠性如何?
我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。 按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。 这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。 考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案) 编辑: 我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案: Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。 幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。 至于为什么我要首先测试正态分布: 一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。

4
大数据假设检验
您如何对大数据进行假设检验?我写了以下MATLAB脚本来强调我的困惑。它所做的只是生成两个随机序列,并对另一个变量进行简单的线性回归。它使用不同的随机值多次执行此回归,并报告平均值。趋向于发生的是,随着我增加样本数量,平均p值变得很小。 我知道,由于测试的功效随样本数量的增加而增加,因此,给定足够大的样本,即使使用随机数据,p值也将变得足够小,以拒绝任何假设检验。我四处询问,有人说,“大数据”对效果大小的影响更为重要。测试是否显着并且影响足够大,我们需要关注。这是因为在大样本的p值将挑选的非常小的差异时,就像是解释在这里。 但是,效果大小可以通过缩放数据来确定。在下面,我将解释变量缩放到足够小的大小,从而在给定足够大的样本量的情况下,它对因变量产生了重大影响。 所以我想知道,如果存在这些问题,我们如何从大数据中获得任何见解? %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, %do regression loop %number of observations n = 1000; %first independent variable (constant term) x(1:10,1) = 1; %create dependent variable and the one …

1
我什么时候停止寻找模特?
我正在寻找能源价格与天气之间的模型。我有在欧洲国家之间购买的MWatt的价格,以及很多天气值(Grib文件)。每5小时(2011-2015)的小时数。 价格/天 这是每天的一年。我有这个5年的每小时。 天气示例 3D散点图,用开尔文表示,一个小时。我每小时每个数据有1000个值,还有klevin,风,地势等200个数据。 我正在尝试预测兆瓦每小时的平均价格。 我的天气数据非常密集,每小时超过10000个值,因此相关性很高。这是一个简短的大数据问题。 我尝试了套索,脊线和SVR方法,将MWatt的平均价格作为结果,而将天气数据作为收入。我将70%作为训练数据,将30%作为测试。如果我的测试数据是非预测性的(在我的训练数据中的某处),则我的预测很好(R²= 0.89)。但是我想对我的数据进行预测。 因此,如果测试数据按时间顺序排在我的训练数据之后,则它什么也不能预测(R²= 0.05)。我认为这很正常,因为它是时间序列。并且存在很多自相关。 我以为我必须使用ARIMA这样的时间序列模型。我计算了方法的顺序(序列是固定的)并进行了测试。但这没用。我的意思是预测的r²为0.05。我对测试数据的预测完全不在我的测试数据上。我尝试将ARIMAX方法用作回归天气。说它不会添加任何信息。 ACF / PCF,测试/训练数据 所以我每天和每周做一次季节性裁员 天 第一周趋势 如果可以预见股价趋势,就可以拥有: 蓝色是我的预测,红色是真正的价值。 我将进行回归分析,将天气的滚动平均值作为收入,将股价趋势的趋势作为结果。但是到目前为止,我还没有找到任何关系。 但是,如果没有互动,我怎么知道什么都没有?也许只是我没有找到它。

1
在R中处理大数据集-教程,最佳实践等
我是R新手,需要对R中的大数据集进行各种分析。因此,在浏览此站点和其他地方时,在我看来,这里涉及许多深奥而鲜为人知的问题-例如何时使用哪个包,对数据进行哪些转换(不进行转换)等。 我只是想知道是否有一本书/教程/指南使所有这些事情变得神秘,并以系统的方式呈现信息?我更喜欢这样做,而不是四处寻找,并在线整理来自不同来源的信息。 提前致谢。
11 r  large-data 

1
大规模PCA甚至可能吗?
主成分分析(PCA)的经典方法是在输入数据矩阵上进行,列的均值为零(然后PCA可以“最大化方差”)。通过将列居中可以轻松实现。但是,当输入矩阵稀疏时,居中的矩阵现在将变得稀疏,并且-如果矩阵很大,则不再适合内存。有针对存储问题的算法解决方案吗?

3
当大时比较嵌套的二进制logistic回归模型
为了更好地问我的问题,我已经提供了一些来自一个16级模型(输出fit)和17变量模型(fit2)以下(在这些模型中的所有预测变量是连续的,在这些模型之间的唯一区别在于fit不包含变量17(var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416 max |deriv| 3e-05 gp 0.180 tau-a 0.177 Brier 0.190 fit2 Model Likelihood Discrimination …


3
如何交互查看大时间序列数据?
我经常处理合理数量的时间序列数据,将50-200百万的倍数与相关的时间戳关联起来,并希望对其进行动态可视化。 是否有现有软件可以有效地做到这一点?库和数据格式如何?缩放缓存是图书馆关注大型时间序列的一个示例。在“缩放缓存”中,数据以几种分辨率汇总,以便更轻松地查看不同分辨率的数据。 编辑:另外,如果还有其他地方我应该问这个问题或寻求答案,请告诉我。

1
处理非常大的时间序列数据集
我可以访问非常大的数据集。数据来自四种类型之一的人们在听音乐摘录时的MEG录音。数据如下: 6个科目 3次实验重复(时期) 每个时期120次试用 275个MEG通道在500Hz(= 4000个样本)下每次试验8秒的数据 因此,这里的每个“示例”都是一个大小为[4000x275]的矩阵,并且有2160个此类示例,并且在进行任何特征提取之前。目的是根据大脑信号(4类分类)预测类型。 显然,这里存在一些具有挑战性的问题,即: 数据集不适合内存 数据中将存在很强的时间相关性,并且受试者间的差异将很大。结果,如何分割数据并不明显 信噪比非常低 目前尚不清楚分类器的正确功能是什么 依次进行以下操作: 一个人可以做很多事情。首先,我们可以安全地将采样频率从500Hz降低到200Hz,因为即使考虑到奈奎斯特极限,大脑活动也不会真正发生在100Hz以上。我们也可以从一组渠道中进行抽样(例如,在听觉区域上方居中),但我们不愿先验,因为在其他区域(额叶等)可能会有一些有趣的活动。我们可能还可以删除一部分时间窗口。也许只有前2个对任务很重要?这不是真的。当然每个人都会大喊“ 降维!”,但这也不是一件容易的事。首先,我们必须非常小心地进行训练/测试拆分(请参阅2.),并且在生成特征之前还是之后也不很明显。其次,除了昂贵之外交叉验证或艰苦的视觉检查,没有明显的方法来选择合适的方法或合适的尺寸,我们当然可以仅使用PCA,ICA或随机投影,并希望获得最好的结果。 这很棘手。如果我们在训练集中有连续的样本,我们可能会过度拟合训练集,而如果我们将连续的样本分成训练和测试集,则我们可能会不足以适应训练集,但仍然可能会过度拟合测试集。这里似乎有多种选择: 单科目分类。各个科目各取所需,并根据时代划分。这应该是最简单的任务,因为我们没有试图跨大脑进行预测。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。我们只报告所有主题的平均准确性。当然,我们不会期望这些模型能很好地推广。 学科内分类。将所有主题放在一起,并根据时代划分。实际上,这可能是最简单的任务,因为我们将看到所有受训的对象。但是,我们可能不会期望这些模型能很好地推广到新主题。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。 学科间分类。也称为“留一法”,其中将单个科目作为测试数据,其余的用于训练。然后,我们将轮流浏览所有主题。然后将对主题执行交叉验证。我们希望这将是一个更加困难的任务,因为我们每次都试图在一个“新大脑”上进行预测。尽管存在重测信度(即时间相关性导致多少过度拟合)的问题,但我们希望模型能够很好地推广到更大的人群。 这是一个典型的“大海捞针”问题-与音乐体裁或任何体裁特定处理有关的实际信号与大脑活动的“汤”相比可能微不足道。还有一些伪造品,只能被部分去除(主要与移动有关)。我们从数据中得出的任何特征以及处理数据的任何方式都应避免破坏部分感兴趣的信号。 在这里可以想象做各种事情。第一种是简单地将原始数据(连接到向量中)用作特征向量。我不确定这会带来多大的收获-我认为这些向量本质上可能是统一随机的。这确实是一个信号处理问题,但是可以遵循一些一般准则。一种方法是在滑动窗口上进行标准傅里叶分析,从中可以将分量分成不同的频带(α/β/γ等),并将这些统计量(平均值,标准偏差)用作特征。或者可以使用小波,希尔伯特变换,甚至尝试寻找混沌吸引子。当然,我们可以选择内核(线性,多项式,RBF等),以乘以排列的数量。也许最好的做法是生成尽可能多的不同功能集,然后使用MKL或增强方法将它们组合在一起。 您将如何处理这种数据集(如果不是专门的话)?一路上我有什么想念的吗?如果不花费大量的研究时间和计算资源,最可能成功的策略是什么?

3
从庞大的数据集中学习的方法?
基本上,有两种学习大型数据集的常用方法(当您面临时间/空间限制时): 作弊:)-仅使用“可管理”子集进行训练。由于收益递减规律,准确性的损失可以忽略不计-模型的预测性能通常在将所有训练数据纳入模型之前就已经趋于平缓。 并行计算-将问题分解为较小的部分,并在单独的计算机/处理器上解决每个问题。虽然您需要算法的并行版本,但是好消息是,许多常见算法自然是并行的:最近邻居,决策树等。 还有其他方法吗?何时使用它们有什么经验法则吗?每种方法的缺点是什么?

1
K-均值:实际情况下有多少次迭代?
我没有数据挖掘或大数据方面的行业经验,所以很高兴听到您分享一些经验。 人们实际上在一个非常大的数据集上运行k-means,PAM,CLARA等吗?还是他们只是从中随机抽取一个样本?如果他们只是对数据集进行抽样,如果数据集不是正态分布的,结果是否可靠? 在实际情况下,运行这些算法时,我们能否说出收敛之前通常需要进行多少次迭代?还是迭代次数总是随数据大小而增长? 我之所以这样问,是因为我正在考虑开发一种在收敛之前终止迭代算法的方法,但是结果仍然可以接受。我认为值得尝试的是,如果迭代次数大于1,000,则可以节省一些计算成本和时间。你怎么看?

2
高维数据集的高斯过程回归
只是想看看是否有人对高维数据集应用高斯过程回归(GPR)有任何经验。我正在研究各种稀疏GPR方法(例如,稀疏伪输入GPR),以了解在特征选择是参数选择过程一部分的情况下,高维数据集可以使用的方法。 任何有关论文/代码/或各种尝试方法的建议都值得赞赏。 谢谢。

2
可扩展的尺寸缩减
考虑到特征数量恒定,Barnes-Hut t-SNE的复杂度为,随机投影和PCA的复杂度为使它们对于非常大的数据集“负担得起”。O (n )O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) 另一方面,依赖多维缩放的方法具有复杂度。O(n2)O(n2)O(n^2) 是否存在其他复杂度低于降维技术(除了琐碎的降维技术,例如,看前列?O (n log n )kkkO(nlogn)O(nlog⁡n)O(n\log n)


2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.