或更“会是”吗?大数据使统计数据和相关知识变得更加重要,但似乎不重视抽样理论。
我已经看到围绕“大数据”的这种炒作,并且不禁怀疑我为什么要分析所有内容?是否没有理由设计/实施/发明/发现“抽样理论”?我不想分析数据集的整个“人口”。仅仅因为您可以做到并不意味着您应该这样做(愚蠢是一种特权,但您不应该滥用它:)
所以我的问题是:分析整个数据集在统计上是否相关?您可能要做的最好是,如果您进行采样,则将误差降到最低。但是,最小化该错误的成本真的值得吗?“信息价值”真的值得在大型并行计算机上分析大数据时所付出的努力,时间成本等吗?
即使对整个人群进行分析,其结果充其量也只能是猜测,而正确的可能性更高。可能比抽样要高一点(或者会更高吗?)通过分析总体与分析样本所获得的见解是否会大相径庭?
还是我们应该接受它,因为“时代变了”?考虑到足够的计算能力,将抽样作为一项活动变得不那么重要了:)
注意:我不是要开始辩论,而是在寻找答案,以了解大数据为何会执行其功能(即分析所有内容)而无视采样理论(或不这样做)。