“大数据”的定义是什么?


23

有一个吗?

我能找到的所有定义都描述了数据的大小,复杂性/多样性或速度。

维基百科的定义是我找到的唯一具有实际数字的定义

大数据量是一个不断变化的目标,从2012年开始,单个数据集中的数据量从几十TB到许多PB。

但是,这似乎与下一段引用的MIKE2.0定义相矛盾,该定义表示“大”数据可能很小,并且仅飞机上创建10GB传感器的3GB数据就可以认为是大数据。

IBM尽管说过:

大数据不仅仅是规模问题。

定义中强调大小。

奥莱利也强调了 "volume, velocity and variety"这一点。尽管解释得很好,而且更深入,但该定义似乎是对其他定义的重新混编-当然,反之亦然。

我认为《计算机周刊》的文章标题很好地总结了许多文章“什么是大数据以及如何利用它来获得竞争优势”

但是ZDNet 从2012年开始赢得以下大奖:

“大数据”是从IT市场的高性能计算领域中冒出来的一个流行语...如果一个人坐在十个技术供应商的演讲中,可能会提出十五个左右的不同定义。当然,每个定义都倾向于支持该供应商的产品和服务的需求。想象一下。

基本上,“大数据”在某种程度上是“大”形状或形式。

什么是“大”?目前可量化吗?

如果“大”是无法量化的,那么是否存在不仅仅依赖于一般性的定义?


7
“什么是“大”?目前可量化吗?”。当然。“大”超出了您当前的能力;)
Oded 2012年

1
@Oded,您需要先定义“句柄” :-)。
2012年

14
如果您必须提出要求,那么您的数量还不够大。;)
FrustratedWithFormsDesigner 2012年

@Ben-每个人和每个系统的定义都不同...
Oded

4
“大”最有可能是指“难以处理”。够不适合在内存中,填满磁盘,需要时间来在网络上传输切换等

Answers:


42

没有一个。这是一个时髦的词。

关键在于,您的数据超出了传统系统的功能。数据太大,无法存储在最大的磁盘上,如果不进行特殊优化,查询会花费很长时间,网络或磁盘无法支持传入的流量,普通的旧数据视图将无法处理形状/数据大小/宽度...

基本上,您的数据超出了一些不确定的临界点,在该临界点“仅添加更多硬件”就不会削减数据。


+1,而且,随着硬件的赶超以及先前定制的工具变得成熟,标准化并在商业上出售以解决此类问题,所谓的“大”总是在变化。
FrustratedWithFormsDesigner 2012年

换句话说:不,不知道,不,不:-)。
2012年

另外,在大数据成为大数据之前,许多公司和研究机构已经进行了大数据工作。直到现在,在所有社交媒体/在线大数据挑战面前,它才成为主流。
Paul Hiemstra 2013年

2

正如Oracle链接中所指出的那样(Immad Careem评论),oracle.com / us / technologies / big-data / index.html。大数据就是一切,而不是关系数据库中存储的关系数据。在大肆宣传之前的几年,它只是“大量数据”。现在它确实在增长,并由营销人员推广成为某种特殊数据。

有几个次要原因(市场营销除外)将大数据视为真实事物。

  1. Map-Reduce的发明
  2. Hadoop等NOSQL技术
  3. 非结构化数据类型的需求影响了传统RDBMS的某些发展
  4. 可能是EMC2公司提供的一些硬件技术

2
“ Map-Reduce的发明”?你在开玩笑吧。
Telastyn 2012年

1
“所有不是关系数据的东西”的定义只能来自以RDB为中心且以Oracle为中心的人(这是错误的)。在该定义下,每个SolR索引,每个MongoDB数据库和每个Berkley DB都是“大数据”。那真是愚蠢。
约阿希姆·绍尔


-1

很高兴看到O'Reilly和其他人终于抓住了我们11年前首次推出的Gartner 3V大数据。作为参考,这是我2001年写的原始文章:http : //blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/

Gartner最近更新的定义也认识到了价值方面:“大数据是具有大量,速度和/或多样性的信息资产,需要创新形式的信息处理以增强洞察力发现,决策和流程自动化。”

我们还开发了一种方法,可以根据技术采用方面的规定对三个矢量进行量化。但是我不能公开分享。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.