如何从“大数据”中得出有效的结论?


40

媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事,例如KDNuggets对2012年的热门话题进行了民意测验。但是,我对此深表关切。有了大数据,每个人似乎都很高兴能拿出任何东西。但是,我们是否违反了所有经典的统计原理,例如假设检验和代表性抽样?

只要我们仅对同一数据集做出预测,就可以了。因此,如果我使用Twitter数据来预测Twitter用户的行为,那可能还可以。但是,使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此,在分析Twitter时,您很快就会只测量活动和机器人。(例如,参见“雅虎预测美国的政治胜利者”这充满了民意测验,并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90%”(他有28%,而金里奇在初选中有40%)。

您知道其他这样的大数据失败吗?我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限...

至于推特数据,或者实际上是从网络上收集到的任何“大数据”,我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集,这只是他们数据集中的另一个偏见。

将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过大。

我最近听到了这个笑话,大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男,女,兽人,毛茸茸,是和否”。

那么,我们必须采用什么方法才能使统计信息重新回到分析中,特别是在尝试预测“大数据”数据集之外的数据时?

Answers:


31

您的恐惧是有根据的,具有洞察力。雅虎和其他几家公司正在对用户进行随机实验,并且做得很好。但是观测数据充满困难。人们普遍认为,随着样本数量的增加,问题会减少。对于方差,这是正确的,但随着n的增加,偏差保持恒定。当偏差很大时,一个很小的真正随机样本或随机研究可能比一亿个观察值更有价值。


8
大数据可能是偏差方差分解无用的领域-数据质量和数据管理更为重要。这是因为我们不能希望知道每个数据点,甚至是特殊情况-只是其中的太多
概率

24

实验设计和分析中有多种技术可以帮助您减少偏差,但这总是归结为同一件事:必须知道自己在做什么。大数据分析与其他任何数据分析都存在相同的问题;它缺乏假设。

一个明显的例子是具有逐步变量选择的多元回归。有人说,这很好,但是有100个测量变量,统计定律表明,当通过查看各个系数是否显着不同于零而进行评估时,其中一些显示显着关系。因此,数据集中的变量越多,找到表示某种(无意义)关系的两个变量的机会就越大。并且数据集越大,由于例如小的混杂效应,无意义模型的机会就越大。如果您测试许多模型(甚至只有10个变量,可能是整个模型的全部),那么您很可能会发现至少一个重要模型。这意味着什么吗?没有。

那该怎么办?用你的大脑:

  • 在收集数据并检验该假设之前先制定一个假设。这是确保您的统计数据真实地讲述一个故事的唯一方法。
  • 在进行某些测试之前,请使用协变量对抽样进行分层。愚蠢的例子:如果您的数据集中有1000位男性和100位女性,则要谈论平均人口数,则随机选择50位。实际上,这是大数据派上用场的事情:您有足够的数据可供采样。
  • 全面描述测试人群,因此很容易得出结论针对哪些人群。
  • 如果你用你的大数据集探索的目的,这种探索在测试期间你拿出假设新的不同的数据集,不只是你收集的一个子集。并使用所有必要的预防措施再次测试它们。

这些都是显而易见的,众所周知的。Heck早在1984年就已经提出了Rosenbaum和Rubin,他说明了如何使用倾向得分减少观察研究中的偏差,而这就是大多数大型数据集的本质:观察数据。在Feng等的最新工作中,也提倡使用马氏距离。实际上,我的统计英雄之一科克伦(Cochran)早在1973年就对这一问题发表过评论!还是鲁宾(Rubin)呢?他在1979年就已经引入了多元匹配抽样和回归校正。老出版物被严重低估了,而且常常被忽视,当然在统计领域也是如此。

所有这些技术都各有利弊,必须了解减少偏差与消除偏差并不相同。但是,如果您知道:

  • 您要测试的内容,以及
  • 你怎么样了

大数据不是伪造结果的借口。


在@DW的(更正)评论之后编辑,他指出我在错误的上下文中使用了“过度拟合”一词。


12
“数据集越大,过度拟合的可能性就越大”-实际上,这是倒退。可能的模型集越大,过度拟合的机会就越大(所有其他条件都相同)。数据集越大,过度拟合的机会越小(所有其他条件都相同)。
DW

@DW怎么回事?实际上,如果模拟中具有绝对的独立性,那么在具有大小数据集的重要模型上就有很大的机会(简单的模拟就可以证明这一点)。las,我还没有遇到一个独立性完美的数据集。例如,当您产生很小的混淆效果时,大型数据集比小型数据集更有可能产生毫无意义的重要结果。
乔里斯·梅斯

很好的答案-您对发现显着效果的评论为收缩方法提供了优于“进出”模型选择方法的良好理由。
概率

10
@DW正在发表有关过度拟合的声明,并且似乎是正确的-尤其是因为数据集越大,对数据子集进行交叉验证的机会就越大。Joris Meys正在发表有关统计意义的声明。没错 但是在大数据集中,统计意义是没有意义的-影响大小很重要,因为几乎所有事物都是“统计意义上的”。
zbicyclist '02

1
@zbicyclist非常正确的观察。我承认我误解了DW,并在错误的上下文中使用了过度拟合一词。我站得住了。
乔里斯·梅斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.