数据挖掘和统计分析之间有什么区别?


19

数据挖掘和统计分析之间有什么区别?

在某些背景下,我认为我的统计教育很传统。提出一个特定的问题,设计研究,并收集和分析数据以提供对该问题的一些见解。结果,我一直对我认为的“数据挖掘”持怀疑态度,即在大型数据集中寻找模式并使用这些模式得出结论。我倾向于将后者与数据挖掘相关联,并且一直认为这有点原则(以及诸如算法变量选择例程之类的东西)。

但是,关于数据挖掘的文献越来越多。通常,我看到这个标签指的是诸如聚类,基于树的分类等特定技术。但是,至少从我的角度来看,这些技术可以在一组数据上“设置为松散”或以结构化方式用于解决题。我将前者称为数据挖掘,而将后者称为统计分析。

我从事学术管理工作,被要求做一些“数据挖掘”以发现问题和机会。与我的背景相一致,我的第一个问题是:您想学习什么?您认为有助于事情发展的是什么?从他们的回答中可以明显看出,我和提出问题的人对数据挖掘的性质和价值有不同的看法。



3
如果重复,我可以猜测数据挖掘和机器学习是一回事!
乔治·唐塔斯

@George Dontas是的,如果另一个问题希望我希望看到ML和数据挖掘之间存在差异,那么我来自评论链接。
DJG 2014年

Answers:


20

杰罗姆·弗里德曼(Jerome Friedman)不久前写了一篇论文:数据挖掘与统计:什么是联系?,我认为您会发现有趣的地方。

数据挖掘在很大程度上是商业关注的问题,并受到业务需求的驱动(加上供应商向企业销售软件和硬件系统的“需求”)。弗里德曼(Friedman)提到的一件事是,所有被炒作的“功能”都起源于统计之外-从诸如神经网络的算法和方法到GUI驱动的数据分析-,传统统计产品似乎都不是这些系统的一部分(回归,假设检验等)。“我们的核心方法论在很大程度上被忽略了。” 它也以用户驱动的方式按照您所说的方式出售:这是我的数据,这是我的“业务问题”,请给我答案。

我认为弗里德曼试图挑衅。他不认为数据挖掘在方法论方面具有严重的知识基础,但这种情况会改变,统计学家应该发挥作用而不是忽略它。

我自己的印象是,这或多或少发生了。线条已经模糊。统计人员现在在数据挖掘期刊上发表文章。这些天的数据挖掘者似乎接受了某种统计培训。尽管数据挖掘程序包仍然不能大肆宣传广义线性模型,但逻辑分析在分析人员中广为人知-除了聚类和神经网络。最佳的实验设计可能不是数据挖掘核心的一部分,但是可以哄骗该软件吐出p值。进展!


1
这是一篇很棒的论文,与我对什么是数据挖掘以及它与统计数据有何不同的观点相一致。渔获是从1997年开始!请注意对本文的起诉书或您的建议,但请注意我对数据挖掘的关注程度。听起来我需要掌握一本有关数据挖掘的最新书籍才能赶上。
Brett 2010年

呵呵,我故意把日期定得不对,因为我认为注意到时间跨度很有趣。:)迈克尔·贝里(Michael Berry)和戈登·利诺夫(Gordon Linoff)的书相当不错,并且会吸引统计学家的眼光(因为更广泛的了解而不是学习统计技术)。如果您想了解该领域的模糊“企业”面,可以浏览一下SAS产品的Enterprise Miner或SPSS的Clementine等供应商产品中的一本书籍。除非您要使用产品本身,否则我不建议您购买它们。
ARS

10

统计和数据挖掘之间的差异在很大程度上是历史性的,因为它们来自不同的传统:统计和计算机科学。数据挖掘是在人工智能和统计领域并行发展的。

Witten&Frank的 1.4节总结了我的观点,因此我将详细引用它:

机器学习和统计之间有什么区别?愤世嫉俗的人认真地看着这一领域的商业兴趣(和炒作),将数据挖掘等同于统计和营销。实际上,您不应该在机器学习和统计之间寻找分界线,因为数据分析技术是一个连续的领域,也是一个多维的领域。其中一些源于标准统计学课程中教授的技能,而另一些源于计算机科学带来的机器学习。从历史上看,双方的传统大相径庭。如果被迫指出重点的单一差异,则可能是统计学更加关注检验假设,

过去,在机器学习和统计中并行开发了非常相似的方法。

但是现在,这两种观点已经融合。

NB1 IMO,数据挖掘和机器学习是非常紧密相关的术语。从某种意义上说,机器学习技术被用于数据挖掘。我经常将这些术语视为可互换的,并且就它们的不同而言,它们通常会并存。我建议浏览“两种文化”论文以及我最初提出的其他问题。

NB2口语中的“数据挖掘”一词可能具有否定含义,意味着在没有任何概念性理解的情况下使某些算法在数据上变得宽松。从某种意义上说,数据挖掘将导致虚假结果和过度拟合。因此,与非专家交谈时,我通常避免使用该术语,而是将机器学习或统计学习用作同义词。


关于NB2-我认为您对数据挖掘的含义是完全正确的,并且我还没有与机器学习建立联系。我的培训始终强调过度拟合,虚假和把握机会的问题,因此我一直对DM持怀疑态度-直到有人真正告诉我他们在做什么和怎么做之前,我还是持怀疑态度。谢谢。
Brett 2010年

1
关于ML / DM区别,我唯一的疑问是我认为DM范围更广。例如,OLAP和相关工具包括采矿技术。但是这些来自计算机科学而不是机器学习的数据库方面。商业在塑造数据挖掘“含义”中的作用不容忽视-它根据需要引入了管理科学,运筹学,机器学习和统计等要素。它也给人一种脆弱的印象,但这通常是纯粹主义者而不是从业者的问题。
ars

@ars:我同意。我试图通过说“数据挖掘中使用了机器学习技术”(即数据挖掘是一个超集)来说一点。您对商业应用程序的观点也很明确。尽管如今在商业应用程序中的某人可能会将其工作称为其他事物(例如“数据科学”)。
Shane 2010年

是的,我应该说我是在努力弥补差异,而不是实际上是在you讽您所写的内容。为误导而道歉。改变时间和术语(例如采用“数据科学”)的好处。盖尔曼(Gelman)的书之一不是以“统计就是数据科学”之类的词开头吗?所以“他们”是从统计学家那里窃取的。再次。:)
ars

8

数据挖掘分为描述性或预测性。描述性数据挖掘用于搜索海量数据集,并发现数据中意外结构或关系,模式,趋势,聚类和离群值的位置。另一方面,Predictive是为回归,分类,模式识别或机器学习任务构建模型和过程,并在将这些模型和过程应用于新鲜数据时评估其预测准确性。

用于搜索高维数据中的图案或结构的机制可能是手动的,也可能是自动的。搜索可能需要交互式查询数据库管理系统,或者可能需要使用可视化软件来发现数据中的异常。用机器学习的术语来说,描述性数据挖掘被称为无监督学习,而预测性数据挖掘被称为监督学习。

数据挖掘中使用的大多数方法都与统计和机器学习中开发的方法有关。这些方法中最重要的是回归,分类,聚类和可视化的一般主题。由于数据集的巨大规模,数据挖掘的许多应用集中于降维技术(例如,变量选择)以及怀疑高维数据位于低维超平面上的情况。最近的注意力已经转向识别位于非线性表面或流形上的高维数据的方法。

在数据挖掘中,也有一些情况,从经典意义上讲,统计推断没有任何意义或具有可疑的有效性:前者发生在我们整个人口中寻找答案时,后者发生在数据集为“便利”样本而不是从一些人口众多中随机抽取的样本。当按时间收集数据时(例如,零售交易,股票市场交易,患者记录,天气记录),采样也可能没有意义。观察的时间顺序对于理解生成数据的现象至关重要,并且在观察可能高度相关时将它们视为独立的观察将提供有偏差的结果。

除了统计理论和方法外,数据挖掘的主要组成部分还包括计算和计算效率,自动数据处理,动态和交互式数据可视化技术以及算法开发。

数据挖掘中最重要的问题之一是可伸缩性的计算问题。为计算标准探索性和确认性统计方法而开发的算法被设计为在应用于中小型数据集时具有快速和高效的计算能力;然而,已经表明,这些算法中的大多数都无法应对处理海量数据集的挑战。随着数据集的增长,许多现有算法都显示出急剧降低(甚至停止)的趋势。


8

数据挖掘是统计信息,有一些细微的差异。您可以将其视为品牌重塑统计数据,因为统计学家有点奇怪。

它通常与计算统计信息相关联,即只有您可以用计算机完成的工作。

数据挖掘者窃取了很大一部分多元统计信息,并将其称为自己的。检查任何1990年代多元书籍的目录,并将其与新的数据挖掘书籍进行比较。非常相似。

统计数据与检验假设和模型构建相关联,而数据挖掘与预测和分类则更多相关联,而不管是否存在可理解的模型。


1
有什么重复的?我看不到任何明显的东西。
罗伯·海恩德曼

1
与我认为的这个非常相似: 非常 stats.stackexchange.com/questions/6/…–
尼尔·麦圭根

1
好。我在寻找数据挖掘,而不是机器学习。如果您认为重复的话,请投票关闭。
Rob Hyndman

嗯,所以数据挖掘==机器学习?
ARS

1
1)我没有看到comp stat的区别。统计人员所做的事情并不需要计算机。我想您的意思是计算密集型程序,例如迭代解决方案等?但是,这些在非数据挖掘的现代统计工作中也很常见。2)在我自己的(统计)工作中,我一直对模型的构建感兴趣,以进行解释和预测,具体取决于问题-我不会考虑使用数据挖掘。3)我得出的结论是,现代DM是统计的一种特殊应用,我认为这是一个很好的结论。
Brett 2010年

6

我之前写过一篇文章,对数据挖掘与心理学进行了比较观察。我认为这些观察结果可能反映出您正在识别的一些差异:

  1. “数据挖掘似乎更关注使用观察到的变量进行预测,而不是了解潜在变量的因果系统;心理学通常更关注潜在变量的因果系统。
  2. 数据挖掘通常涉及为除数据挖掘目的以外的目的而收集的海量数据集(例如10,000 +行)。心理数据集通常很小(例如,少于1,000或100行),并且明确收集以探索研究问题。
  3. 心理分析通常涉及测试特定模型。从理论上讲,自动化的模型开发方法往往没有兴趣。”- 数据挖掘和R

我认为第2点和第3点是有用的评论,与我认为是两个SA和DM之间的区别是一致的。我不太确定您的第一点。我从事统计工作,对提高对因果关系的理解感兴趣。但是,我还做过统计工作,任务是获取已知关系并开发模型,其唯一目的是进行预测,但它们没有共享“数据挖掘”的其他功能。
Brett 2010年

4

我认为您所做出的区分与数据挖掘和统计分析之间的差异并没有真正的关系。您正在谈论探索性分析与建模预测方法之间的区别。

我认为统计的传统是建立在所有步骤上的:探索性分析,建模,估计,测试,预测/推断。统计学家进行探索性分析以找出数据的样子(R!下的功能汇总)。我猜想数据挖掘的结构性较差,可以通过探索性分析来识别。但是,它使用来自统计的技术,这些技术来自估计,预测,分类...。


我可以买。数据挖掘是统计技术的一种探索性应用。虽然,我认为区别并不足够。当我从一个设计好的实验中对100个观察值进行EDA评估时,我认为没有人会称其为数据挖掘,是吗?
布雷特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.