数据科学与数据挖掘一样吗?


22

我敢肯定,本论坛将要讨论的数据科学具有几个同义词,或者至少是相关领域,用于分析大数据。

我的特定问题是关于数据挖掘的。几年前,我参加了数据挖掘的研究生班。数据科学与数据挖掘之间有什么区别,尤其是我需要进一步了解才能精通数据挖掘?


关于您的问题的第二部分,我在meta中提出了一个讨论:meta.datascience.stackexchange.com/questions/5/…如何获得这些信息可能会影响您的熟练程度是负责任的还是在范围之内的。
克莱顿2014年

Answers:


25

@statsRus开始为另一个问题的答案奠定基础/datascience/1/what-c​​haracterises-the-difference-between-data-science-and-statistics

  • 数据收集:网络抓取和在线调查
  • 数据处理:重新编码凌乱的数据并从语言和社交网络数据中提取含义
  • 数据规模:处理超大型数据集
  • 数据挖掘:在大型复杂数据集中查找模式,重点是算法技术
  • 数据通信:通过可视化帮助将“机器可读”数据转换为“人类可读”信息

定义

可以视为数据科学家工具包中的一项(或一组技能和应用程序)。我喜欢他如何用一种特定于行业的术语将采矿的定义与收藏的区别开来。

但是,我认为在美国英语口语定义中,数据挖掘将与数据收集同义。

至于去哪里精通? 我认为该问题过于笼统,将收到主要基于观点的答案。也许如果您可以改善问题,则可能更容易了解自己的问题。


11

对于这些术语,@ Clayton发表的内容对我来说似乎是正确的,并且“数据挖掘”是数据科学家的一种工具。但是,我并没有真正使用“数据收集”这个术语,也没有使我成为“数据挖掘”的同义词。

我对您的问题的回答是:,这些术语不相同。在该领域中的定义可能比较宽松,但是我还没有看到那些术语可以互换使用。在我的工作中,有时我们使用它们来区分目标或方法。对于我们来说,更多地是关于检验假设的,并且通常仅出于该目的而收集数据。更多地是关于筛选现有数据,寻找结构以及可能产生假设。数据挖掘可以从一个假设开始,但是它通常非常虚弱或笼统,难以自信地解决。(挖掘足够长的时间,您会发现一些东西,尽管它可能变成黄铁矿。)

但是,我们也将“数据科学”作为更广泛的术语使用,以包括“数据挖掘”。我们还讨论了“数据建模”,对我们来说,它是根据数据以及其他知识和目标为感兴趣的系统找到模型。有时,这意味着尝试查找可以解释真实系统的数学模型,而有时则意味着找到足以满足特定目的的预测模型。


8

我的回答是不会。我认为数据挖掘是数据科学中的其他领域之一。数据挖掘主要是考虑产生问题而不是回答问题。与数据科学相比,它通常被称为“检测新事物”,在数据科学中,数据科学家试图解决复杂的问题以达到最终结果。但是,这两个术语之间有许多共性。例如..如果您有一个农业用地来寻找受影响的植物..在这里空间数据挖掘在完成这项工作中起着关键作用。您很有可能最终不仅发现受影响的植物以及它们受到的影响.......这在数据科学中是不可能的。


您的答案非常好,如果您添加了一个小例子,那也很好。为了强调您的观点,数据挖掘与检测新事物更相关,而不是试图解决并获得结果
鲁本斯

6

数据挖掘与数据科学之间有许多重叠之处。我要说,具有数据挖掘作用的人们关心的是数据收集以及从未经过滤的,未经组织的,主要是原始/野生的数据集中提取特征。一些非常重要的数据可能很难提取,而不是解决实现问题,而是因为它可能具有外来工件。

例如。如果我需要某人查看70年代书面纳税申报表中的财务数据,然后对其进行扫描和机器读取,以了解人们是否在汽车保险方面节省了更多钱;数据挖掘者将是获得帮助的人。

如果我需要某人在巴西的推文中检查耐克的Twitter个人资料的影响力,并从个人资料中找出关键的积极特征,我将寻找一名数据科学家。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.