媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事,例如KDNuggets对2012年的热门话题进行了民意测验。但是,我对此深表关切。有了大数据,每个人似乎都很高兴能拿出任何东西。但是,我们是否违反了所有经典的统计原理,例如假设检验和代表性抽样?
只要我们仅对同一数据集做出预测,就可以了。因此,如果我使用Twitter数据来预测Twitter用户的行为,那可能还可以。但是,使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此,在分析Twitter时,您很快就会只测量活动和机器人。(例如,参见“雅虎预测美国的政治胜利者”这充满了民意测验,并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90%”(他有28%,而金里奇在初选中有40%)。
您知道其他这样的大数据失败吗?我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限...
至于推特数据,或者实际上是从网络上收集到的任何“大数据”,我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集,这只是他们数据集中的另一个偏见。
将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过大。
我最近听到了这个笑话,大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男,女,兽人,毛茸茸,是和否”。
那么,我们必须采用什么方法才能使统计信息重新回到分析中,特别是在尝试预测“大数据”数据集之外的数据时?