Questions tagged «large-data»

“大数据”是指观测(数据点)的数量如此之大,以至于需要改变数据分析师思考或进行分析的方式的情况。(不要与“高维度”相混淆。)

12
如何转换包含零的非负数据?
如果我偏向正数,我通常会记录日志。但是,对于包含零的高度偏斜的非负数据,我该怎么办?我已经看到使用了两种转换: 日志(X + 1 )log⁡(x+1)\log(x+1)具有巧妙的功能,即0映射到0。 日志(x + c )log⁡(x+c)\log(x+c)其中c被估计或设置为一些非常小的正值。 还有其他方法吗?是否有充分的理由选择一种方法而不是其他方法?

14
大数据集不适合假设检验吗?
在《Amstat新闻》最近的一篇文章中,作者(Mark van der Laan和Sherri Rose)说:“我们知道,对于足够大的样本量,每项研究(包括无效假设为零的研究)都将声明具有统计学意义的效果。”。 好吧,我一个人都不知道。这是真的?这是否意味着假设检验对大数据集毫无价值?


7
工业与Kaggle的挑战。收集更多的观测值并获得更多的变量是否比幻想建模更重要?
我希望标题可以自我解释。在Kaggle中,大多数获胜者会使用有时与数百个基本模型进行堆叠的方式,以降低MSE的准确性,从而获得额外的百分比...一般来说,根据您的经验,精美的建模方法(例如堆叠与简单地收集更多数据和更多功能)有多么重要用于数据?

8
在“大数据”时代采样是否有意义?
或更“会是”吗?大数据使统计数据和相关知识变得更加重要,但似乎不重视抽样理论。 我已经看到围绕“大数据”的这种炒作,并且不禁怀疑我为什么要分析所有内容?是否没有理由设计/实施/发明/发现“抽样理论”?我不想分析数据集的整个“人口”。仅仅因为您可以做到并不意味着您应该这样做(愚蠢是一种特权,但您不应该滥用它:) 所以我的问题是:分析整个数据集在统计上是否相关?您可能要做的最好是,如果您进行采样,则将误差降到最低。但是,最小化该错误的成本真的值得吗?“信息价值”真的值得在大型并行计算机上分析大数据时所付出的努力,时间成本等吗? 即使对整个人群进行分析,其结果充其量也只能是猜测,而正确的可能性更高。可能比抽样要高一点(或者会更高吗?)通过分析总体与分析样本所获得的见解是否会大相径庭? 还是我们应该接受它,因为“时代变了”?考虑到足够的计算能力,将抽样作为一项活动变得不那么重要了:) 注意:我不是要开始辩论,而是在寻找答案,以了解大数据为何会执行其功能(即分析所有内容)而无视采样理论(或不这样做)。


10
大数据到底是什么?
我曾多次被问到这个问题: 什么是大数据? 学生和我的亲戚都开始关注统计和ML。 我找到了这个简历。我觉得我同意唯一的答案。 在维基百科页面也有一些关于它的评论,但我不知道我是否真的与那里的一切同意。 编辑:( 我觉得Wikipedia页面缺少解释解决此问题的方法以及我在下面提到的范例)。 我最近参加了EmmanuelCandès的演讲,他在演讲中介绍了大数据范例 首先收集数据稍后再提问⇒⇒\Rightarrow 这是与假设驱动的研究的主要区别,在假设研究中,您首先拟定了一个假设,然后收集数据对它进行了说明。 他深入探讨了量化由数据监听生成的假设的可靠性的问题。我从他的演讲中学到的主要内容是,我们确实需要开始控制FDR,他提出了仿制方法。 我认为简历应该对什么是大数据以及您对它的定义有疑问。我觉得有很多不同的“定义”,如果对它的组成没有普遍的共识,很难真正掌握它的含义或向他人解释。 我认为Candès提供的“定义/范例/描述”是我最接近的观点,您对此有何看法? EDIT2:我认为答案不仅仅应解释数据本身。它应该是数据/方法/范例的组合。 EDIT3:我认为这次对迈克尔·乔丹的采访也可能会有所帮助。 EDIT4:我决定选择投票率最高的答案作为正确答案。尽管我认为所有答案都有助于讨论,但我个人认为这更多是我们如何生成假设并使用数据的范例问题。我希望这个问题可以为那些寻找大数据的人提供参考。我希望可以更改Wikipedia页面,以进一步强调多重比较问题和FDR的控制。
44 large-data 

2
如何从“大数据”中得出有效的结论?
媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事,例如KDNuggets对2012年的热门话题进行了民意测验。但是,我对此深表关切。有了大数据,每个人似乎都很高兴能拿出任何东西。但是,我们是否违反了所有经典的统计原理,例如假设检验和代表性抽样? 只要我们仅对同一数据集做出预测,就可以了。因此,如果我使用Twitter数据来预测Twitter用户的行为,那可能还可以。但是,使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此,在分析Twitter时,您很快就会只测量活动和机器人。(例如,参见“雅虎预测美国的政治胜利者”这充满了民意测验,并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90%”(他有28%,而金里奇在初选中有40%)。 您知道其他这样的大数据失败吗?我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限... 至于推特数据,或者实际上是从网络上收集到的任何“大数据”,我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集,这只是他们数据集中的另一个偏见。 将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过大。 我最近听到了这个笑话,大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男,女,兽人,毛茸茸,是和否”。 那么,我们必须采用什么方法才能使统计信息重新回到分析中,特别是在尝试预测“大数据”数据集之外的数据时?

6
效应大小作为重要性检验的假设
今天,在交叉验证期刊俱乐部(为什么不在那里?),@ mbq问: 您认为我们(现代数据科学家)知道重要性意味着什么吗?以及它如何关系到我们对结果的信心? @Michelle回答说(包括我在内)通常会这样做: 随着我继续职业生涯,发现重要性概念(基于p值)的帮助越来越少。例如,我可以使用非常大的数据集,因此所有数据在统计上都是有意义的(p&lt;.01p&lt;.01p<.01) 这可能是一个愚蠢的问题,但这不是检验假设的问题吗?如果您检验零假设“ A等于B”,那么您知道答案是“否”。更大的数据集只会使您更接近这个不可避免的真实结论。我相信正是戴明(Deming)曾经举过一个假设的例子:“羔羊右侧的头发数量等于其左侧的头发数量”。好吧,当然不是。 更好的假设是“ A与B的相差不大。” 或者,在羔羊示例中,“羔羊侧面的毛发数量相差不超过X%”。 这有意义吗?

5
免费的数据集,用于非常高的尺寸分类[关闭]
有超过1000个要素(或样本点(如果包含曲线))可免费用于分类的数据集是什么? 已经有一个关于免费数据集的社区Wiki: 查找免费可用的数据样本 但是在这里,最好有一个更集中的列表,可以更方便地使用它,我还建议以下规则: 每个数据集一个帖子 没有链接到数据集 每个数据集必须与 一个名称(弄清楚它的含义)和一个指向数据集的链接(可以使用包名称来命名R数据集) 特征数(假设为p),数据集的大小(假设为n)和标签/类的数量(假设为k) 根据您的经验(将使用的算法写成文字)或文献(在最后一种情况下,链接本文)得出典型的错误率

3
使用scikit-learn进行多项式回归
我正在尝试使用scikit-learn进行多项式回归。从我的理解中,多项式回归是线性回归的特例。我希望可以对scikit的广义线性模型之一进行参数化以适合高阶多项式,但是我认为没有选择的余地。 我确实设法使用了支持向量回归器和多核。这对我的数据子集效果很好,但是要适应较大的数据集需要花费很长时间,因此我仍然需要更快地找到某些东西(即使以某种精度进行交易)。 我在这里错过明显的东西吗?

9
统计和数据挖掘软件工具,用于处理大型数据集
目前,我必须分析大约2000万条记录并建立预测模型。到目前为止,我已经试用了Statistica,SPSS,RapidMiner和R。在这些Statistica中似乎最适合处理数据挖掘,并且RapidMiner用户界面也非常方便,但是Statistica,RapidMiner和SPSS似乎仅适用于较小的数据集。 谁能为大型数据集推荐一个好的工具? 谢谢!

1
最新的流媒体学习
我最近一直在处理大型数据集,并发现了许多有关流方法的论文。仅举几例: 遵循规范的领导者和镜像后裔:等价定理和L1正则化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) 流式学习:一次通过SVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:用于SVM的原始估计子GrAdient求解器http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf 还是在这里:SVM可以一次进行流学习一个示例吗? 流随机森林(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) 但是,我无法找到有关它们之间如何比较的任何文档。我读过的每篇文章似乎都针对不同的数据集进行了实验。 我知道sofia-ml,vowpal wabbit,但与大量现有方法相比,它们似乎执行的方法很少! 不太常见的算法性能不够吗?是否有任何论文试图复习尽可能多的方法?


3
大数据的第一步(,)
假设您正在分析每天有数十亿个观测值的巨大数据集,其中每个观测值都有数千个稀疏值,可能还有多余的数值和类别变量。假设存在一个回归问题,一个不平衡的二元分类问题,以及一项“找出最重要的预测变量”的任务。我对如何解决该问题的想法是: 在数据的越来越大(随机)子样本上拟合一些预测模型,直到: 拟合和交叉验证模型在计算上变得困难(例如,我的笔记本电脑运行异常缓慢,R内存不足等),或者 训练和测试RMSE或精度/召回值稳定。 如果训练和测试错误不稳定(1.),请使用更简单的模型和/或实施该模型的多核或多节点版本,然后从头开始。 如果训练和测试错误稳定下来(2.): 如果(即,我仍然可以在上运行算法,因为它还不太大),请尝试通过扩展特征空间或使用更复杂的模型并从头开始重新启动来提高性能。X 小号ü b 小号Ë 吨ñš ü b 小号Ë 吨≪ NñsübsËŤ≪ñN_{subset} \ll NXš ü b 小号Ë 吨XsübsËŤX_{subset} 如果是'large'并且进行进一步的分析是昂贵的,则分析变量的重要性并结束分析。ñš ü b 小号Ë 吨ñsübsËŤN_{subset} 我打算使用像包biglm,speedglm,multicore,和ffR中最初,并在以后使用更复杂的算法和/或多节点(上EC2)是必要的。 这听起来像是一种合理的方法吗?如果是,那么您是否有任何具体建议或建议?如果没有,那么您将尝试使用这种大小的数据集吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.