Questions tagged «large-data»

“大数据”是指观测(数据点)的数量如此之大,以至于需要改变数据分析师思考或进行分析的方式的情况。(不要与“高维度”相混淆。)

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
我们真的用*百万*系数/独立变量执行多元回归分析吗?
我花了一些时间学习机器学习(对于递归很抱歉:),在多变量线性回归的情况下,我选择选择梯度下降而不是直接方程求解来计算回归系数的经验法则使我很感兴趣。 经验法则:如果特征数目(读出的系数/自变量)是间或以上一百万,去与梯度下降,否则矩阵求逆运算是在商用硬件相当可控,从而计算系数直接应该足够好。10 ,000 - 1 ,000 ,00010,000-1个,000,00010,000 - 1,000,000 从计算上来说,我得到了权衡/限制。但是从统计学的角度来看,我们真的可以计算出具有这么多系数的模型吗?如果我还记得我在研究生院的多元线性回归课,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能微乎其微,否则它们的分布将不服从我们对数据所做的假设。即使我确实开阔了思维以考虑“许多IV”,我仍然不会想成千上万。 问题: 这是真的发生还是理论上的问题? 分析一百万个静脉注射有什么意义?相对于无视它们,这是否真的使我们获得的信息价值大大增加了? 还是因为一开始我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里去并可能删减IV组? 我仍然相信,仅仅因为我们可以分析“一切”,并不意味着我们应该将其扔到求解器中(或者这样做),而我过去的一些问题也反映了类似的POV。 我尚未完成课程,我可能会很快提这个问题,但是我只是想不出这个“为什么”的想法,而是想尽我所能来理解它。

6
核外数据分析选项
我已经专业使用SAS已有5年了。我将其安装在笔记本电脑上,经常需要分析具有1,000-2,000个变量和数十万个观测值的数据集。 我一直在寻找SAS的替代方案,以使我能够对相似大小的数据集进行分析。我很好奇其他人在这种情况下会使用什么。当然,这不是今天使用的“大数据”。我的数据集也不足以容纳在内存中。我需要一种可以将算法应用于硬盘驱动器上存储的数据的解决方案。这些是我调查过的事情,无济于事: R-BigMemory可以创建存储在内存之外的矩阵,但是元素必须处于相同模式。我处理的字符和数字之间几乎是50/50的数据。FF软件包越来越接近我的需求,但是我不太了解哪些程序与之兼容。我认为支持程度有限。 熊猫-对于R的Python替代方案,我感到非常兴奋。但是,它也必须将所有数据保存在内存中。 Revolution R-这个显示出很大的希望。我的家用计算机上有一份副本(如果您注册Kaggle,则可以免费获得),但尚未对其进行测试以作为SAS的可行替代方案。人们非常赞赏对Revolution R作为SAS替代产品的评论。 谢谢 更新1 编辑时要补充一点,我正在寻找人们成功使用的现实可行的解决方案。在大多数情况下,SAS使我可以浏览大文件,而不必担心内存限制。无论采用哪种SAS,他们都想出了使内存管理对用户透明的方法。但是,我怀着一颗沉重的胸怀使用SAS来完成我的工作(我必须这样做),并且会喜欢使用FOSS替代方案,该方案使我能够处理“大型”数据,而不必太费力地考虑数据在哪里的位置。特定时间(在内存或磁盘上)。 我遇到的最接近的东西是R的FF包,以及Python即将出现的称为Blaze的东西。但是,这些问题已经存在了很多年,因此分析师在此期间一直在做什么?他们如何处理内存限制中的这些相同问题?提供的大多数解决方案似乎是: 获得更多的内存-imo,这不是一个好的解决方案。很容易找到一个可以超过RAM但仍然适合硬盘驱动器的数据集。此外,工作流程必须适应在探索性数据分析过程中创建的所有结构。 子集数据-这对于探索是很好的,但对于最终确定结果和报告不是很好。最终,在子集上开发的任何过程都必须应用于整个数据集(在我的情况下,无论如何)。 整理数据-这是我想从实际实施此工作流程的人员那里了解的更多信息。怎么做?用什么工具?可以通过对用户透明的方式来完成吗?(即,创建一些磁盘上的数据结构,框架负责引擎盖下的分块)。
18 r  sas  large-data 

5
具有大数据的泊松回归:更改度量单位是否错误?
由于泊松分布中的阶乘,当观测值较大时,估计泊松模型(例如,使用最大似然)变得不切实际。因此,例如,如果我试图估计一个模型来解释给定年份的自杀数量(仅提供年度数据),并且说每年有数千个自杀,那么表达数百种自杀是否错误? ,则2998将为29.98〜= 30?换句话说,更改度量单位以使数据易于管理是否错误?

5
均值绝对偏差和大数据集的在线算法
我有一个小问题使我感到恐惧。我必须为多元时间序列的在线获取过程编写程序。在每个时间间隔(例如1秒),我都会得到一个新样本,该样本基本上是大小为N的浮点向量。我需要做的操作有些棘手: 对于每个新样本,我计算该样本的百分位数(通过对向量进行归一化,以使元素总和为1)。 我以相同的方式计算平均百分比矢量,但使用过去的值。 对于每个过去的值,我使用在步骤2中计算的全局平均百分比矢量来计算与该样本相关的百分比矢量的绝对偏差。这样,绝对偏差始终为0(当矢量等于平均值​​)之间的数字。向量)和2(当完全不同时)。 使用所有先前样本的偏差平均值,我计算出平均绝对偏差,该平均值也是0到2之间的一个数字。 我使用平均绝对偏差来检测新样本是否与其他样本兼容(通过将其绝对偏差与在步骤4计算的整个集合的平均绝对偏差进行比较)。 由于每次收集一个新样本时,全局平均值都会发生变化(因此平均绝对偏差也会发生变化),有没有一种方法可以计算此值而无需多次扫描整个数据集?(一次用于计算总体平均百分比,一次用于收集绝对偏差)。好的,我知道在不扫描整个集合的情况下计算全局平均值绝对容易,因为我只需要使用一个临时矢量来存储每个维的和,那么平均绝对偏差呢?它的计算包括abs()运算符,因此我需要访问所有过去的数据! 谢谢你的帮助。

4
如何改善对声誉对投票的影响的分析?
最近,我对声誉对投票的影响进行了一些分析(请参阅博客文章),随后我对可能更具启发性(或更合适)的分析和图表提出了一些问题。 所以有几个问题(可以随意回答任何人,而忽略其他人): 在当前的化身中,我并不是说要居中。我认为这样做是为了使散点图中出现负相关的错误外观,因为有更多的帖子发布到帖子数的较低端(您会在Jon Skeet面板中看到这种情况,仅在凡人用户中不会发生面板)。不以帖子的平均数为中心是否不合适(因为我的意思是以每位用户的平均分数为中心)? 从图中可以明显看出,分数高度偏右(并且平均居中没有任何改变)。在拟合回归线时,我同时拟合了线性模型和使用Huber-White砂纸的模型,该模型存在误差(通过rlmMASS R软件包提供),并且对斜率估计没有任何影响。我是否应该考虑对数据进行转换而不是进行稳健的回归?注意,任何转换都必须考虑0和负分数的可能性。还是应该使用其他类型的模型代替OLS来计数数据? 我相信一般而言,可以改进最后两个图形(并且也与改进的建模策略有关)。以我(厌倦的)观点,我怀疑声誉影响是否是真实的,它们会在海报的历史中很早就实现(我想如果是真的,这些可能会被重新考虑:“您给出了很好的答案,所以现在我将投票支持您所有的职位”而不是“以总分获得声誉”效果)。考虑到过度绘图,如何创建图形以证明这是否正确?我认为可能要证明这一点的一个好方法是适合表格的模型。 Y=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon 其中YYY是score - (mean score per user)(与当前散点图相同),X1X1X_1是post number,并且Z1⋯ZkZ1⋯ZkZ_1 \cdots Z_k是表示某个任意范围的帖子编号的虚拟变量(例如,如果帖子编号为,则Z1Z1Z_1等于Z如果帖子号为etc,则等于2。β 0和ε分别为隆重截距和误差项。然后,我会观察一下估计γ11 through 25Z2Z2Z_2126 through 50β0β0\beta_0ϵϵ\epsilonγγ\gamma确定是否在海报历史的早期(或以图形方式显示)声誉效应。这是合理(且适当)的方法吗? 像这样的散点图(例如黄土或样条线)适合使用某种类型的非参数平滑线,但是我对样条线的实验没有发现任何启发性的内容(在张贴者历史的早期,任何关于阳性效果的证据都是轻微而温和的)到我包含的样条线数量)。由于我有一个假设,即影响会在较早发生,因此我上面的建模方法是否比样条线更合理? 还要注意,尽管我已经疏通了所有这些数据,但是仍然有很多其他社区需要检查(还有一些类似的超级用户和serverfault可以借鉴类似的样本),因此在将来提出建议是很合理的我使用保留样本分析任何关系的分析。

5
一种以图形方式显示大量数据的好方法
我正在从事一个涉及14个变量和345,000个房屋数据观测值的项目(例如建造年份,平方英尺,已售价格,居住县等)。我担心要尝试找到好的图形技术和包含好的绘图技术的R库。 我已经看到ggplot和lattice中的内容会很好地工作,并且我正在考虑为一些数字变量绘制小提琴图。 人们会建议使用哪些其他软件包来以清晰,简洁,最重要的是简洁的方式显示大量的数字或因子类型的变量?

4
样本量很大时的置信区间
我的问题可以改写为“如何使用大数据评估抽样误差”,特别是对于期刊出版物。这是说明挑战的示例。 通过一个非常大的数据集(来自100多家医院的100000例独特患者及其处方药),我有兴趣估算服用特定药物的患者比例。得到这个比例很简单。它的置信区间(例如,参数或自举)非常紧密/狭窄,因为n非常大。尽管样本量很大很幸运,但我仍在寻找一种方法来评估,呈现和/或可视化某些形式的错误概率。尽管置入/可视化置信区间似乎无益(如果没有误导)(例如95%CI:.65878-.65881),但似乎也无法避免一些不确定性陈述。 请让我知道你的想法。我将不胜感激有关该主题的任何文献。即使样本量很大也可以避免对数据过度自信的方法。

3
如何为纵向大数据建模?
传统上,我们使用混合模型来建模纵向数据,例如: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 我们可以假设不同人的随机截距或斜率。但是,我要解决的问题将涉及庞大的数据集(数百万人,每天进行1个月的观测,即每个人将进行30次观测),目前我不知道是否有软件包可以完成此级别的数据。 我可以使用spark / mahout,但它们不提供混合模型,我的问题是,是否仍然可以修改数据以便可以使用RandomForest或SVM对此数据集进行建模? 我可以利用任何功能工程技术来帮助RF / SVM解决自相关问题吗? 非常感谢! 一些潜在的方法,但我没有时间把它们写成火花 如何将随机效果纳入randomForest 具有纵向数据的SVM回归

3
在R中对大数据进行聚类并且与采样相关吗?
我是数据科学的新手,在查找R中具有200,000行和50列的数据集中的聚类时遇到问题。 由于数据同时具有数字变量和名义变量,因此使用Euclidean距离度量的K-means之类的方法似乎不是合适的选择。因此,我转向接受距离矩阵作为输入的PAM,agnes和hclust。 菊花方法可以处理混合类型的数据,但距离矩阵太大:200,000乘以200,000,比2 ^ 31-1(R 3.0.0之前的向量长度限制)大得多。 昨天发布的新R 3.0.0支持长度大于2 ^ 31-1的长向量。但是200,000 x 200,000的双矩阵需要大于16Gb的连续RAM,这在我的机器上是不可能的。 我读过有关并行计算和bigmemory包的信息,但不确定它们是否对您有帮助:如果我使用的是雏菊,它将生成一个大矩阵,该矩阵无论如何都无法容纳在内存中。 我还阅读了有关采样的文章: 采样与“大数据”时代相关吗? 因此,就我而言,对数据集使用抽样,对样本进行聚类然后推断整个数据集的结构是否相关? 你能给我一些建议吗?谢谢! 关于我的机器: R版本3.0.0(2013-04-03) 平台:x86_64-w64-mingw32 / x64(64位) 操作系统:Windows 7 64bit 内存:16.0GB

5
为什么大数据集的梯度下降效率不高?
假设我们的数据集包含一百万个示例,即,并且我们希望使用梯度下降对这些数据集执行逻辑或线性回归。x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} 梯度下降法使效率低下是什么? 回想一下在时间处的梯度下降步长为:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) 其中是损失函数。fff 我没有发现上述步骤导致算法效率低下的任何异常情况。它是的计算吗?不能预先计算此操作,即已经计算出每个,并只是在每个数据点对其求值∇f(x)∇f(x)\nabla f(x)∂f∂x∂f∂x\frac{\partial f}{\partial x}xi?xi?x_i?

1
支持向量机可以用于大数据吗?
以我对SVM的了解有限,它对于简短而又胖的数据矩阵(很多特征,并且没有太多实例)很有用,但不适用于大数据。XXX 我知道一个原因是内核矩阵是矩阵,其中是数据中实例的数量。如果说100K数据,则内核矩阵将具有元素,并可能占用约80G内存。ķķKn × nñ×ñn \times nññnķķK1010101010^{10} 是否可以对大数据使用SVM进行任何修改?(以100K到1M数据点的规模为例吗?)

3
如何以并行/分布式方式运行线性回归以进行大数据设置?
我正在处理一个非常大的线性回归问题,数据量太大,以至于必须将它们存储在一组机器上。将所有样本聚合到一台计算机的内存(甚至磁盘)中将太大了 为了对这些数据进行回归,我正在考虑一种并行方法,即对每个单独的框进行回归,然后根据每个单独的beta的统计数据(可能是平均值或中位数)来计算beta。 这有意义吗 ?如果是的话,我应该如何获得预期的总R2R2R^2的每一个人R2R2R^2?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
拟合优度适用于非常大的样本量
我每天收集非常大的分类数据样本(> 1,000,000),并希望看到各天之间的数据看起来“明显”不同,以检测数据收集中的错误。 我认为使用拟合度测试(尤其是G检验)将非常适合(双关语)。预期分布由前一天的分布给出。 但是,由于我的样本量太大,该测试具有很高的功效,并且会散发出许多假阳性结果。就是说,即使是很小的每日波动也会产生接近零的p值。 我最终将测试统计量乘以某个常数(0.001),可以很好地解释以该速率采样数据。本文似乎同意这种方法。他们说: 卡方最可靠,样本约100至2500人 我正在寻找有关此的更多权威评论。在大型数据集上进行统计测试时,也可能有一些其他方法可以解决误报问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.