在“大数据”时代采样是否有意义?


54

或更“会是”吗?大数据使统计数据和相关知识变得更加重要,但似乎不重视抽样理论。

我已经看到围绕“大数据”的这种炒作,并且不禁怀疑我为什么要分析所有内容?是否没有理由设计/实施/发明/发现“抽样理论”?我不想分析数据集的整个“人口”。仅仅因为您可以做到并不意味着您应该这样做(愚蠢是一种特权,但您不应该滥用它:)

所以我的问题是:分析整个数据集在统计上是否相关?您可能要做的最好是,如果您进行采样,则将误差降到最低。但是,最小化该错误的成本真的值得吗?“信息价值”真的值得在大型并行计算机上分析大数据时所付出的努力,时间成本等吗?

即使对整个人群进行分析,其结果充其量也只能是猜测,而正确的可能性更高。可能比抽样要高一点(或者会更高吗?)通过分析总体与分析样本所获得的见解是否会大相径庭?

还是我们应该接受它,因为“时代变了”?考虑到足够的计算能力,将抽样作为一项活动变得不那么重要了:)

注意:我不是要开始辩论,而是在寻找答案,以了解大数据为何会执行其功能(即分析所有内容)而无视采样理论(或不这样做)。


1
另请参阅:stats.stackexchange.com/q/22502/7828-如何从大数据中得出有效结论。
Anony-Mousse 2012年

1
(+1年前)我总是很喜欢阅读您的有见地的问题。它们是该站点的真正资产。
主教

@cardinal-非常感谢您的评论。意味着很多来自你。
博士

Answers:


29

总之,是的。我相信在“大数据”世界之内和没有的情况下,仍然存在适当的抽样情况,但是大数据的性质肯定会改变我们的抽样方法,并且我们将使用更多的数据集来近似地表示基础数据人口。

关于采样:根据情况,几乎总是很清楚采样是否合适。采样不是天生的有益活动。这正是我们要做的,因为我们需要在实现数据收集的成本之间进行权衡。我们正在尝试表征人群,需要选择适当的方法来收集和分析有关人群的数据。当数据收集或数据处理方法的边际成本很高时,采样才有意义。在那种情况下,尝试达到100%的人口并不是对资源的良好利用,因为与无响应偏差之类的事情相比,对随机抽样误差进行微小的改进通常会更好。

大数据有何不同?“大数据”解决了我们多年来存在的许多相同问题,但是“新”在于数据收集是在现有的计算机介导的过程中进行的,因此收集数据的边际成本基本上为零。这大大减少了我们的采样需求。

我们何时仍将使用采样?如果您的“大数据”人群是解决问题的正确人群,那么您将仅在以下几种情况下采用抽样:需要运行单独的实验组,或者如果庞大的数据量太大而无法捕获和处理(许多我们中的人如今可以轻松处理数百万行数据,因此这里的界限越来越远。如果好像我要驳回您的问题,那可能是因为我很少遇到在收集或处理阶段都担心数据量的情况,尽管我知道许多情况

对我来说似乎很难的情况是,当您的“大数据”人口不能完全代表您的目标人口时,要权衡的是更多的苹果到桔子。假设您是区域交通规划人员,并且Google提供了可让您访问其Android GPS导航日志的帮助。尽管毫无疑问,数据集将很有趣,但人口可能会系统地偏向于低收入人群,公共交通用户和老年人。在这种情况下,发送给随机家庭样本的传统​​旅行日记虽然成本较高且数量较少,但仍可能是更好的数据收集方法。但是,这不仅仅是一个“采样与大数据”的问题,而是


22

尽管移动设备可能会产生大量的大数据,但其中几乎没有可用数据。如果要使用Foursquare预测城市出行方式,则估计流量可能会偏离一个数量级。更糟糕的是,您不会知道自己是高估还是低估了这些流量。您可以获得疯狂的foursquare用户的城市出行方式的准确无误的图片,但除非每个人都被要求(1)保持工作的智能手机,(2)一直运行该foursquare应用程序,以及(3)在以下位置注册他们停留超过10分钟的任何地方(例如,获得电子普查;让自由主义者抱怨Google和Facebook都了解您的所有信息),您的数据将包含未知的偏见,并且您的电子杜威将继续击败真实单词杜鲁门(可点击):


(来源:whatisasurvey.info

如果有的话,我会认为这一段历史会重演,而一些大的“啤酒+尿布”从大数据产生的预测将通过更严格的抽样方法的研究人员被推翻。这是令人惊讶的是基于概率的调查,甚至不顾下降响应率保持准确。


1
(+1)但是,刻板的四方用户不会成为偏执狂的对立面。;-)
红衣主教

1
是的...可能是一个不好的名词。让我将其更改为疯狂!
StasK 2012年

2
大数据不是罪魁祸首。它是如何使用的。当它具有信息并被适当地应用时,将非常有帮助。数据挖掘并非一无是处。
Michael Chernick 2012年

使用大数据获取交通信息的重点。既然像Google和Apple这样的公司已经做到了,所以我认为这是一个很好的例子,说明某些受众无法使用(当前可用的)大数据,因此我也尝试将其纳入答案。
乔纳森(Jonathan)2012年

@迈克尔,你是对的,当然。数据便宜得可怜,但是从中获取有用信息的方法并没有减少-如有的话,它们正在增加,因为现在必须筛选更多数据以获取有用的信息。
StasK 2012年

21

每当采用统计推断技术时,重要的是要弄清楚要针对哪些人群得出结论。即使已收集的数据非常大,它也可能仅涉及一小部分人,可能无法代表全部。

例如,假设某个行业的公司在某个国家/地区收集了有关其客户的“大数据”。如果它想使用这些数据得出有关该国现有客户的结论,则抽样可能不太相关。但是,如果要得出关于更大的人口的结论(潜在客户以及现有客户或其他国家的客户),那么必须考虑已收集数据的客户在多大程度上具有代表性(可能在收入,年龄方面) ,性别,教育等-人口更多。

时间维度也需要考虑。如果目的是使用统计推断来支持预测,则必须理解总体以扩展到未来。如果是这样,那么再次有必要考虑是否在代表将来可能获得的数据的情况下获得了该数据集(无论多大)。


欢迎来到我们的网站,亚当!(如果你定期检查中,你会发现,即使偶尔的机会行使自己的兴趣几何数论 :-)。
whuber

关于需要考虑人口的要点!这是人们懒惰大数据的重要方式之一。
乔纳森(Jonathan)

“即使所收集的数据非常庞大,它可能仍然只涉及一小部分人口,可能并不代表全部人口。” 我认为仅此句话就能回答许多问题。
Bemipefe

13

从我对大数据/机器学习的热潮中所见,思考采样和抽取样本的人口与以往一样重要,但思考的却更少。

我正在“审核”斯坦福大学的ML类,到目前为止,我们在介绍回归和神经网络时都没有提及总体推断。由于该课程已经由6位数字的人参加,因此现在有很多人非常了解如何拟合数据,而没有样本概念的想法。


3
我完全同意。当观察当前关于机器学习(主要是从业者和程序员),大数据和“数据科学”的热潮时,我发现人们完全忽略采样,推理,统计推理的理解和含义,而牺牲它以盲目地应用任何东西,这是荒谬的。算法很重要。您甚至可以通过交叉验证在此处看到问题和一些答案。这就是为什么我也认为这是一种炒作,很快就会过时或借鉴统计认识论,从而成为统计数据的一个分支(无论如何我还是这样认为的)。
Momo 2012年

2
如果那个ML类与我前一段时间审核过的ML类相似,那么在霍夫丁不等式之前,有一个技术假设被误认为训练数据是来自总体的完全随机样本。不幸的是,至少在我的经验中以及在整个课程中这些技术的应用示例中,几乎从来没有这样。当您使用“大数据”时,情况仍然并非如此。
道格拉斯·扎里

12

是的,采样是相关的,并将保持相关。底线是统计估计的准确性通常是样本量的函数,而不是我们要概括的总体。因此,从1000名受访者的样本中计算出的平均值或平均比例将得出一定准确度的估计值(相对于我们抽样的整个人口),而不考虑人口的大小(或“多少”大数据”)。

话虽如此:存在一些相关的具体问题和挑战,应予以提及:

  1. 取得高概率样本并不总是那么容易。从理论上讲,我们要推广到的每个人口(我们要进行推断)必须具有已知的被选概率;理想情况下,该概率应该相同(等概率样本或EPSEM –选择的相等概率)。这是一个重要的考虑因素,应该清楚地了解采样过程如何将选择概率分配给要归纳的总体人口。例如,是否可以从Twitter推论中获得对包括没有Twitter帐户的个人在内的整个人口的整体情绪的准确估计?
  2. 大数据可能包含非常复杂的详细信息。换句话说,问题不是抽样,而是(微观)细分,为一小部分相关的观察结果提取正确的细节。这里的挑战不是抽样,而是确定大数据的特定分层和细分,以产生可转化为有价值的见解的最准确的可行信息。
  3. 意见评估的另一个一般规则是,非抽样误差和偏差通常比抽样误差和偏差大得多。如果仅处理1000人子样本的数据,尤其是如果各个调查的问题写得不好并且引起偏见,那么仅因为您处理了100亿条记录的表达意见的受访者的记录就不会使结果更有用。
  4. 有时需要采样:例如,如果要从所有数据构建预测模型,则如何验证它?如何比较不同模型的准确性?如果存在“大数据”(非常大的数据存储库),则可以为不同的样本建立多个模型和建模方案,并在其他独立的样本中对其进行验证(尝试)。如果要为所有数据建立一个模型,一个模型将如何验证?

您可以在此处查看我们的“大数据革命”。


1
欢迎来到我们的网站,凯拉(Kyra)!
ub

3

实际上,许多大数据方法都是围绕采样设计的。

问题应该更多地在于以下方面:

我们也不应该对大数据使用系统采样吗?

许多“大数据”资料仍然很新鲜,有时还很幼稚。例如,K均值可以微不足道地并行化,因此适用于“大数据”(我不打算讨论结果,它们不是很有意义;可能与从样本中获得的结果没有很大不同!)。据我所知,这就是Mahout中的k-means实现。

但是,研究超越了天真的并行化(可能仍需要大量的迭代),并试图在固定数量的迭代中进行K均值。例如:

  • 使用MapReduce
    Ene,A.和Im,S.和Moseley,B.进行快速聚类
    2011年第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集

猜猜是什么,他们的方法很大程度上基于抽样

下一个示例:决策林。本质上就是:对于数据集中的几个样本,分别构建一个决策树。可以再次并行化:将每个样本放在单独的机器上。同样,这是一种基于采样的方法。

因此,采样是大数据方法的关键要素之一!

这没有错。


2

交叉验证是子采样的一个特定示例,这在ML /大数据中非常重要。大体而言,大数据通常仍是人口的样本,正如这里其他人提到的那样。

但是,我认为OP可能是专门指抽样,因为它适用于受控实验,而不是观测数据。通常,大数据被认为是后者,但对我而言至少有例外。我将电子商务和社交网络环境中的随机试验,A / B测试和多臂匪徒视为“在大数据环境中进行采样”的示例。


1

在大数据日益流行的领域:搜索,广告,推荐系统(如Amazon,Netflix),都有很大的动力去探索整个数据集。

这些系统的目标是针对人群中的每个成员量身定制建议/建议。而且,正在研究的属性数量众多。普通的网络分析系统可以测量点击率,页面中“热点区域”的“热跟踪”,社交互动等,并将它们与大量预定目标进行权衡。

更重要的是,现在大数据无处不在的大多数地方都是“在线”数据流,即不断地添加/更新数据。设计一个涵盖所有这些属性而没有内在偏差并且仍然可以提供有希望的结果(读取更好的边距)的采样方案是一个挑战。

抽样仍然与调查,医学试验,A / B测试,质量保证高度相关。

简而言之,当要研究的种群很大并且您对种群的宏观特性感兴趣时,抽样就非常有用。为了利用系统的微观特性,必须进行100%检查(大数据)

希望这可以帮助 :)


那么,您是不是说他们不希望能够将其所拥有的数据泛化为尚未拥有的数据呢?还是他们认为自己的样本量如此之大而不必担心那些问题?还是说基础参数会随着时间而变化,所以只要它们随着新数据的流入而持续更新就没关系吗?
gung-恢复莫妮卡

@gung问题不是样本的大小,而是为具有大量属性的数据集生成无偏样本的问题。通常,泛化通常是通过对部分数据集进行训练的机器学习算法来完成的。不断涌入的在线数据流使采样成为次要问题,因为可以使用批量更新来更改参数。
rrampage 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.