我认为大数据的唯一有用定义是对有关特定现象的所有信息进行分类的数据。我的意思是,大数据不是收集感兴趣的总体样本并收集这些单位的度量,而是收集整个感兴趣的总体度量。假设您对Amazon.com客户感兴趣。对于Amazon.com而言,收集有关其所有客户购买的信息是完全可行的,而不是仅跟踪某些用户或仅跟踪某些交易。
在我看来,取决于数据本身的内存大小的定义在某种程度上是有限的。按照该度量,给定足够大的计算机,实际上没有数据是大数据。在无限大的计算机的极端情况下,这种说法似乎可以简化,但请考虑将我的消费级笔记本电脑与Google服务器进行比较的情况。显然,尝试筛查TB级数据时会遇到巨大的后勤问题,但是Google有足够的资源来方便地完成该任务。更重要的是,计算机的大小不是数据的固有属性,因此纯粹参考您所拥有的任何技术来定义数据就像是根据手臂的长度来测量距离。
这种说法不只是形式主义。一旦具有足够的计算能力,就不再需要复杂的并行化方案和分布式计算平台。因此,如果我们接受大数据太大而无法放入RAM(或使Excel崩溃或其他原因)的定义,那么在升级计算机之后,大数据将不复存在。这似乎很愚蠢。
但是,让我们看一下有关大数据的一些数据,我将其称为“大元数据”。这篇博客文章观察到一个重要趋势:可用RAM的增长速度超过数据大小,并且挑衅性地宣称“大RAM正在吞噬大数据”,也就是说,有了足够的基础架构,您将不再遇到大数据问题,而只是有了数据,您便回到了常规分析方法的领域。
而且,不同的表示方法将具有不同的大小,因此,尚不十分清楚参照其内存大小定义“大数据”的含义。如果以存储大量冗余信息的方式构造数据(也就是说,您选择的编码效率很低),则可以轻松越过计算机可以轻松处理的阈值。但是,为什么要让定义具有此属性?在我看来,数据集是否为“大数据”不应该取决于您是否在研究设计中做出了有效的选择。
从从业者的角度来看,我定义的大数据也带有计算要求,但是这些要求是特定于应用程序的。通过数据库设计(软件,硬件,组织)进行的观测与观测非常不同10 7104107观察,这完全可以。这也意味着,按照我的定义,大数据可能不需要我们在经典统计中开发的专业技术:当您需要推断时,样本和置信区间仍然是非常有用和有效的推论工具。线性模型可以为某些问题提供完全可接受的答案。但是我定义的大数据可能需要新颖的技术。在预测因素多于训练数据的情况下,或者预测因素随数据大小增长的情况下,可能需要对新数据进行分类。这些问题将需要更新的技术。
顺便说一句,我认为这个问题很重要,因为它隐含地提到了为什么定义很重要-也就是说,您要为谁定义主题。对一年级生加法的讨论不是从集合论开始的,而是从计数物理对象开始的。根据我的经验,“大数据”一词的大部分用法都出现在大众媒体或非统计学或机器学习专家(例如,营销材料请专业分析)之间的人之间的交流中,表示现代计算实践意味着存在大量可以利用的可用信息。这几乎总是在数据揭示有关消费者的信息的情况下进行的,即使不是私人的,也不是立即显而易见的。
因此,围绕“大数据”常用用法的内涵和分析也带有这样的思想,即只要应用了足够的推论方法,数据就可以揭示一个人生活中的晦涩,隐藏甚至私人的细节。当媒体报道大数据时,匿名性的恶化通常是他们所要驱动的-从这个角度来看,定义“大数据”似乎有些误导,因为大众媒体和非专家们都不关心随机性的优点。森林和支持向量机等,它们也不了解不同规模的数据分析的挑战。这很好。从他们的角度来看,关注点集中在信息时代的社会,政治和法律后果上。对媒体或非专业人士的准确定义实际上并没有用,因为他们的理解也不准确。(别以为我自鸣得意-我只是观察到并不是每个人都可以成为一切方面的专家。)