大数据到底是什么?


44

我曾多次被问到这个问题:

什么是大数据?

学生和我的亲戚都开始关注统计和ML。

我找到了这个简历。我觉得我同意唯一的答案。

维基百科页面也有一些关于它的评论,但我不知道我是否真的与那里的一切同意。

编辑:( 我觉得Wikipedia页面缺少解释解决此问题的方法以及我在下面提到的范例)

我最近参加了EmmanuelCandès的演讲,他在演讲中介绍了大数据范例

首先收集数据稍后再提问

这是与假设驱动的研究的主要区别,在假设研究中,您首先拟定了一个假设,然后收集数据对它进行了说明。

他深入探讨了量化由数据监听生成的假设的可靠性的问题。我从他的演讲中学到的主要内容是,我们确实需要开始控制FDR,他提出了仿制方法。

我认为简历应该对什么是大数据以及您对它的定义有疑问。我觉得有很多不同的“定义”,如果对它的组成没有普遍的共识,很难真正掌握它的含义或向他人解释。

我认为Candès提供的“定义/范例/描述”是我最接近的观点,您对此有何看法?

EDIT2:我认为答案不仅仅应解释数据本身。它应该是数据/方法/范例的组合。

EDIT3:我认为这次对迈克尔·乔丹的采访也可能会有所帮助。

EDIT4:我决定选择投票率最高的答案作为正确答案。尽管我认为所有答案都有助于讨论,但我个人认为这更多是我们如何生成假设并使用数据的范例问题。我希望这个问题可以为那些寻找大数据的人提供参考。我希望可以更改Wikipedia页面,以进一步强调多重比较问题和FDR的控制。


55
“大数据就像十几岁的性行为:每个人都在谈论它,没有人真正知道如何做,每个人都认为其他人正在做,所以每个人都声称自己正在做。” 西蒙·马修斯
亚历山大·卢琴科

4
此报价不再有效。人们最近正在创作许多非凡的作品。如果您看一下Kaggle上的比赛,公司正在改善其业务,并且通过花很多钱来赚很多钱。大数据应用的其他示例可以在以下位置找到:linkedin.com/pulse/…–
Metariat

5
@XuanQuangDO,我同意。不要认真对待这个报价。
亚历山大·卢琴科

6
@XuanQuangDO:好吧,我确定有些青少年正在发生非同寻常的性爱,但这并没有改变这样一个事实,那就是周围也有很多不称职或被误导的摸索,人们会无情地嘲笑;-)
史蒂夫·杰索普

Answers:


54

我很高兴参加RStudio著名的Hadley Wickham博士的演讲。他这样定义

  • 大数据:无法容纳在一台计算机上的内存:> 1 TB
  • 中等数据:适合服务器的内存:10 GB-1 TB
  • 小数据:适合笔记本电脑的内存:<10 GB

哈德利还认为,大多数数据至少可以归结为可处理的问题,实际上只有很少量才是真正的大数据。他将其称为“大数据幻影”。

  • 90%可以通过子集/采样/汇总减少到中小型数据问题
  • 9%可以减少到大量的小数据问题
  • 1%不可估量

幻灯片可以在这里找到。


2
@GuðmundurEinarsson,我刚刚对其进行了编辑,谢谢您的建议。
克里斯C

5
虽然我认为没有明确的界限,但我认为这篇文章很有见地。当我在一家西南公司工作时,我与许多寻求“ 大数据解决方案 ”的客户进行了互动。实际上,他们错过了16 GB的SODIMM。
usεr11852恢复单胞菌说,

2
如今,有了1TB固态硬盘,非易失性存储与易失性存储的速度相差不远。我觉得我希望大数据大于1TB,也许至少50TB或更多。
Mehrdad

3
就您和Hadley而言,出价数据不仅与交易量有关。通常,出价数据是通过3V和最近的4V模型(由Gartner提出)定义的-请参见下面Dawny33的回答。但是,一些专家(包括来自Gartner的专家)考虑了另一种观点,他们认为最重要的V维度,其中V代表业务价值。例如,请参考这篇文章这篇文章
Aleksandr Blekh

2
@AleksandrBlekh您的评论既包含围绕专家之间有关“大数据”标准的争议的细微讨论,也包含一些支持您对此的主张的参考。我认为您应该考虑将其转换为答案。
Silverfish

19

如果数据集/流满足全部四个V,则称为大数据

  • 体积
  • 速度
  • 真实性
  • 品种

除非并且直到不满意,否则数据集不能称为大数据。

我的类似答案,供参考。


话虽如此,作为一名数据科学家;我发现Map-Reduce框架真的很棒。拆分数据,映射数据,然后将映射器步骤的结果简化为单个结果。我发现这个框架真的很有趣,它如何使数据世界受益。

这些是我每天工作中如何处理数据问题的一些方法:

  1. 柱状数据库:这对数据科学家来说是一个福音。我将 Aws Red Shift用作列式数据存储。它有助于执行复杂的SQL查询,并且减轻了麻烦。我觉得这真的很好,特别是当我的成长团队问一些非常复杂的问题时,我不需要说“是的,跑一个查询;我们一天之内就可以解决!”
  2. Spark和Map Reduce框架:上面已经说明了原因。

这是进行数据实验的方式:

  • 确定要解决的问题
  • 现在列出了可能的数据源。
  • 管道旨在将数据从本地数据库导入Redshift。是的,Spark来到这里。在DB的-> S3-> Redshift数据移动期间,它确实很方便。
  • 然后,对Redshift中的数据进行查询和SQL分析。

是的,有大数据算法,例如超级日志等。但我还没有发现需要使用它们。

所以,是的。在生成假设之前,首先要收集数据。


5
我同意这些观点,但我认为“大数据”一词涵盖的内容比数据本身还重要。它也是应用于它的方法,也是在生成关于它的假设之前首先收集数据的范例。
Gumeo

1
@GuðmundurEinarsson我很着急,所以想在短时间内给您最好的答案。因此,我现在根据我对行业中大数据的日常经验对工作流和理解进行了编辑和扩展。
Dawny33

1
此处,四个V被颠倒为定义大数据,而不是大数据的重要显着属性。大数据可以包含很多示例,而这4个中却没有几个,甚至在IBM信息图中也列出了一些。
约翰

@John是的,V确实的变化很大。还有一个新的V()的论点
Dawny33

1
我并不是说它们正在改变,而是您正在将某些属性的描述错误地转换为定义。这就像有人向他们描述了关于狗的忠诚,笑声和舔的重要事情,而其他人走过来并说那是狗的定义。就是说,我认为您在考虑逆向分析方向时正处于正确的轨道上,但它只需要以某种方式附加到数据的大小即可。我认为有很多好的方法可以做到这一点,如果您开发出一种方法,那就太好了。
约翰

14

我认为大数据的唯一有用定义是对有关特定现象的所有信息进行分类的数据。我的意思是,大数据不是收集感兴趣的总体样本并收集这些单位的度量,而是收集整个感兴趣的总体度量。假设您对Amazon.com客户感兴趣。对于Amazon.com而言,收集有关其所有客户购买的信息是完全可行的,而不是仅跟踪某些用户或仅跟踪某些交易。

在我看来,取决于数据本身的内存大小的定义在某种程度上是有限的。按照该度量,给定足够大的计算机,实际上没有数据是大数据。在无限大的计算机的极端情况下,这种说法似乎可以简化,但请考虑将我的消费级笔记本电脑与Google服务器进行比较的情况。显然,尝试筛查TB级数据时会遇到巨大的后勤问题,但是Google有足够的资源来方便地完成该任务。更重要的是,计算机的大小不是数据的固有属性,因此纯粹参考您所拥有的任何技术来定义数据就像是根据手臂的长度来测量距离。

这种说法不只是形式主义。一旦具有足够的计算能力,就不再需要复杂的并行化方案和分布式计算平台。因此,如果我们接受大数据太大而无法放入RAM(或使Excel崩溃或其他原因)的定义,那么在升级计算机之后,大数据将不复存在。这似乎很愚蠢。

但是,让我们看一下有关大数据的一些数据,我将其称为“大元数据”。这篇博客文章观察到一个重要趋势:可用RAM的增长速度超过数据大小,并且挑衅性地宣称“大RAM正在吞噬大数据”,也就是说,有了足够的基础架构,您将不再遇到大数据问题,而只是有了数据,您便回到了常规分析方法的领域。

而且,不同的表示方法将具有不同的大小,因此,尚不十分清楚参照其内存大小定义“大数据”的含义。如果以存储大量冗余信息的方式构造数据(也就是说,您选择的编码效率很低),则可以轻松越过计算机可以轻松处理的阈值。但是,为什么要让定义具有此属性?在我看来,数据集是否为“大数据”不应该取决于您是否在研究设计中做出了有效的选择。

从从业者的角度来看,我定义的大数据也带有计算要求,但是这些要求是特定于应用程序的。通过数据库设计(软件,硬件,组织)进行的观测与观测非常不同10 7104107观察,这完全可以。这也意味着,按照我的定义,大数据可能不需要我们在经典统计中开发的专业技术:当您需要推断时,样本和置信区间仍然是非常有用和有效的推论工具。线性模型可以为某些问题提供完全可接受的答案。但是我定义的大数据可能需要新颖的技术。在预测因素多于训练数据的情况下,或者预测因素随数据大小增长的情况下,可能需要对新数据进行分类。这些问题将需要更新的技术。


顺便说一句,我认为这个问题很重要,因为它隐含地提到了为什么定义很重要-也就是说,您要为谁定义主题。对一年级生加法的讨论不是从集合论开始的,而是从计数物理对象开始的。根据我的经验,“大数据”一词的大部分用法都出现在大众媒体或非统计学或机器学习专家(例如,营销材料请专业分析)之间的人之间的交流中,表示现代计算实践意味着存在大量可以利用的可用信息。这几乎总是在数据揭示有关消费者的信息的情况下进行的,即使不是私人的,也不是立即显而易见的。

因此,围绕“大数据”常用用法的内涵和分析也带有这样的思想,即只要应用了足够的推论方法,数据就可以揭示一个人生活中的晦涩,隐藏甚至私人的细节。当媒体报道大数据时,匿名性的恶化通常是他们所要驱动的-从这个角度来看,定义“大数据”似乎有些误导,因为大众媒体和非专家们都不关心随机性的优点。森林和支持向量机等,它们也不了解不同规模的数据分析的挑战。这很好。从他们的角度来看,关注点集中在信息时代的社会,政治和法律后果上。对媒体或非专业人士的准确定义实际上并没有用,因为他们的理解也不准确。(别以为我自鸣得意-我只是观察到并不是每个人都可以成为一切方面的专家。)


7
这个。“根据我的经验,“大数据”一词的大多数用法都出现在大众媒体或非统计学或机器学习专家(例如,征求专业分析的营销材料)之间的交流中。”
Momo

2
我想您的最后一段是对您​​的看法。我认为,大众媒体的理解与统计学/机器学习/数据科学界人士对大数据一词的看法之间存在明显的差距。我只是觉得实际上需要达成更明确的共识。这样做的原因之一是要有一个引用,使人们在明显不适用时不能操纵该术语或滥用该术语。
Gumeo

1
我想我开始越来越同意你了。我仍然觉得简历需要一个参考问题,对此感兴趣并感兴趣的人在此问题上花了两分钱。我在这里寻找问题,我觉得缺乏讨论。
Gumeo

1
我认为这是一次很有价值的对话,很高兴您提出了这个问题!我很高兴您发现我的评论很有帮助。
恢复莫妮卡

1
我喜欢这个答案有多种原因。首先,我认为强调“大数据”与用于分析大数据的算法无关,这一点非常重要。他们中的大多数人年龄在20-30岁之间(随机森林,线性回归等),并且工作正常。行业中有些人认为“大数据”与新奇的算法结合在一起,因为他们甚至可能都不知道机器学习已经存在了很多年。其次,“大数据”与规模无关。如果您有一台具有128 Gb RAM的服务器,并且可以将所有内容装入内存,那就太好了。(续)
skd 2015年

7

在此处输入图片说明

交叉检查有关大数据的大量文献,我收集了多达14个“ V”项,其中13个沿11个维度:

  • 有效性
  • 值,
  • 差异/差异
  • 品种,
  • 速度,
  • 真实/虚伪,
  • 可行性,
  • 虚拟性
  • 可视化
  • 挥发性,
  • 体积。

第14个术语是“真空度”。根据最近的一个挑衅性帖子,“ 大数据不存在”。其要点是:

  • “大数据”不大
  • 大多数“大数据”实际上并没有用
  • [我们应该]充分利用小数据

对大数据的正确定义将随着硬件,软件,需求和知识而发展,并且可能不应该依赖于固定的大小。因此,2011年6月,大数据中可定义的定义:创新,竞争和生产力的下一个前沿

“大数据”是指数据集,其大小超出了典型数据库软件工具捕获,存储,管理和分析的能力。


1
“空缺”引用的文章似乎非常薄弱。暗示每天30GB的数据量不大(而且大小是定义的唯一组成部分)。此外,有人争辩说,因为公司说他们的数据比实际大得多,这意味着它并不大。在任何地方都没有大的定义。并且所有用来表示“不大”的示例在此都列出了许多V。
约翰

“空隙”不仅适用于尺寸。确实,在最后的一线模式中,“大”的定义是要随着当前实践状态而发展。过去的大事可以在几年后视为小事。在这里,我使用的术语是“大数据”被用作魔术咒语而几乎没有实质内容,如上图所示。
洛朗·杜瓦尔

1
14个条件全部以字母V开头的可能性有多大?我们都是统计专家,来吧!
阿克萨卡尔州

我同意,基本上,这只是表明像大数据这样的术语更可能属于营销领域而不是统计领域。但是,我想分享我所读术语的“集合”。它开始于3V,然后是5V,有时是7等。这些术语可以模糊地帮助发现一个人的数据特征
Laurent Duval

4

人们似乎对大数据中的限定词感兴趣。但是,大小只是该术语(域)的组成部分之一。您的数据集很大,不足以将问题(域)称为大数据,这还远远不够,您还需要难以理解,分析甚至处理。有人称此功能为非结构化功能,但不仅是结构,而且数据的不同部分和元素之间的关系也不清楚。

考虑一下高能物理学家在CERN等地方工作的数据集。在创造大数据术语之前,他们已经使用了PB大小的数据多年。但就目前而言,据我所知,他们并未称其为大数据。为什么?因为数据是相当规则的,所以他们知道如何处理它。他们可能还无法解释所有观察结果,因此他们正在研究新模型等。

现在,我们称大数据为处理数据集的问题,这些数据集的大小可能会在CERN的LHC中在几秒钟内生成。原因是这些数据集通常是来自多个源的数据元素,这些源具有不同的格式,数据之间的关系不清楚以及对业务的不确定价值。它可能只有1TB,但是很难处理所有音频,视频,文本,语音等。因此,就复杂性和所需资源而言,这比CERN数据的PB级要重要。我们甚至不知道我们的数据集中是否存在可辨别的有用信息。

因此,大数据问题解决包括解析,提取未知值的数据元素,然后将它们彼此链接。“解析”图像本身可能是一个大问题。假设您正在寻找城市街道上的闭路电视录像,以查看人们是否越来越愤怒,是否会影响涉及行人的道路交通事故。有大量视频,您可以找到面孔,尝试通过表情来衡量他们的情绪,然后将其链接到事故数据集,警察报告等的数量,同时控制天气(沉淀,温度)和交通拥堵。您需要存储和分析工具来支持这些不同种类的大型数据集,并且可以有效地将数据相互链接。

大数据是一个复杂的分析问题,其复杂性源于其庞大的规模以及其中结构和信息编码的复杂性。


好的输入。人们通常会错过LHC和CCTV数据问题之间的对比。
Gumeo

3

我认为人们对大数据感到困惑的原因是他们没有看到它的好处。大数据(技术)的价值不仅在于可以收集的数据量,还在于预测建模,而预测建模最终更重要:

  1. 预测建模完全改变了我们进行统计和预测的方式,它使我们对数据有了更深入的了解,因为新模型,新技术可以更好地检测趋势,数据噪声,并可以捕获“多维”数据库。我们数据库中的维数越多,创建好模型的机会就越大。预测建模是大数据价值的核心。
  2. 大数据(就数据大小而言)是初步步骤,可通过以下方式为预测建模服务:在以下方面丰富数据库:1.预测变量(更多变量),2.观察值。

更多的预测变量,因为我们现在能够捕获以前无法捕获的数据(由于有限的硬件功能,处理非结构化数据的能力有限)。更多的预测变量意味着有更多的机会拥有重要的预测变量,即可以为业务做出更好的模型,更好的预测,更好的决策。

更多的观察结果不仅使模型随着时间的推移变得更加健壮,而且还有助于模型学习/检测可以在现实中呈现/生成的每种可能的模式。


3

关于大数据及其反义词(大概是小数据?)的棘手之处在于它是一个连续体。大数据人走到了频谱的一边,小数据人走到了另一边,但是没有人人都能达成共识的明确界限。

我将研究两者之间的行为差​​异。在小数据情况下,您有一个“小”数据集,并且您希望尽可能多地压缩每个数据点的信息。获取更多数据,可以获得更多结果。但是,获取更多数据可能会很昂贵。人们通常会限制所收集的数据以适合数学模型,例如进行部分因子测试以筛选有趣的行为。

在大数据情况下,您有一个“大”数据集,但是您的数据集往往没有那么严格。您通常不会说服您的客户购买拉丁广场的家具,只是为了使分析更加容易。取而代之的是,您往往会遇到数据结构不良的数据。为了解决这些问题,目标往往不是“选择最佳数据,并从中提取所有可能的数据”,就像如果习惯于处理小数据时可能会天真地尝试那样。该目标趋向于遵循“如果仅从每个数据点中获取微小的smidgen,总和将是巨大而深刻的”。

它们之间是中等大小的数据集,结构良好。这些是“非常棘手的问题”,所以现在我们倾向于分为两个阵营:一个阵营中有小数据挤占了每个阵营,而另一个阵营中有大数据试图设法让每个数据点都闪耀出来。对。随着我们的前进,我希望看到更多的小数据流程试图适应更大的数据集,并且更多的大数据流程试图适应利用更多的结构化数据。


您对小数据的表征听起来很像Bem关于分析的书。请查找对此的批评,因为这是处理小型数据集的一种不合适的方法,而不是用于将来的数据收集基础的私人探索。
约翰

@约翰,我可能不得不看看那些。批评足以使我什至不能用表征来描述连续体吗?
Cort Ammon

这真是长进入这里,但重要的信息是,你挤一切可以出每个数据点的数据量小。也许是Google Gelman和Forking Paths;或者,实验者的自由度。您必须以不同的方式考虑大小数据分析,而不仅仅是连续性上的观点。
约翰

3

我要说的是,定义大数据必须包含三个要素:分析的方向,相对于总体的数据大小以及相对于计算问题的数据大小。

问题本身提出假设是在数据存在之后发展起来的。我不使用“收集的”,因为认为“收集的”一词是出于某个目的,而数据通常在当时尚不存在。收集通常是通过将现有数据集中在一起以解决问题而在大数据中进行的。

第二个重要部分是,事后分析不仅仅适用于任何数据,所谓的事后分析(使用较小的数据集)也适用。它的大小必须足以使人们相信,从中收集的估计值与总体估计值足够接近,因此可以忽略许多较小的样本问题。因此,我有点担心该领域目前正在推动多种比较校正。如果您拥有全部人口,或者您有充分的理由相信这是有效的近似值,那么这种修正就没有意义了。虽然我意识到确实确实发生过,有时确实出现了一些问题,这些问题的确确实将“大数据”变成了一个小样本(例如,大的逻辑回归),但是却落入了理解某个特定问题的大样本的范围。相反,许多比较问题中的许多问题应转为效果大小问题。而且,当然,您将要使用alpha = 0.05进行测试的整个想法(就像许多大数据一样)是荒谬的。

最后,人口稀少。在某些情况下,人口很少,因此可以很容易地收集检查数据所需的所有数据,并满足前两个条件。数据的大小必须足以使其成为计算问题。因此,在某些方面,我们必须承认“大数据”可能是一个短暂的流行语,也许是永久地寻求严格定义的现象。在短短几年内,使“大数据”变得庞大的某些事情将消失,基于计算机容量的哈德利(Hadley)定义似乎显得古怪。但是,从另一个角度讲,计算问题是与计算机容量无关的问题,或者与永远无法解决的计算机容量无关的问题。我认为从这个意义上讲,定义“

可能有人注意到,我没有提供有关此域的困难计算问题的示例或确切定义(comp sci中通常有大量示例,有些适用,我将不讨论)。我不想做任何事情,因为我认为这必须保持开放。随着时间的流逝,许多人的作品汇集在一起​​,使事情变得容易,这时更多的是通过软件开发,而不是通过硬件。也许为了使这个最后的要求更牢固地界定,该领域将必须更加充分地成熟,但是边缘总是模糊的。


感谢您的输入!我认为您为此线程提供了宝贵的见解。我认为这里的人口数据规模多少被忽略了。
Gumeo 2015年

1

维基百科提供了非常清晰的定义

大数据是对如此庞大或复杂的数据集的广义称呼,以至于传统数据处理应用程序不足。(来源 https://en.wikipedia.org/wiki/Big_data

我知道的另一个简单定义是

不适合计算机内存的数据。

不幸的是,我不记得它的参考。所有其他一切都源于此定义-您必须以某种方式处理大量数据。


0

我要补充一点,大数据是指要么处理大数据集(数百万和/或数十亿行),要么尝试查找有关您现在可以随处收集的广泛数据资源的信息/模式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.