Answers:
@statsRus开始为另一个问题的答案奠定基础/datascience/1/what-characterises-the-difference-between-data-science-and-statistics:
- 数据收集:网络抓取和在线调查
- 数据处理:重新编码凌乱的数据并从语言和社交网络数据中提取含义
- 数据规模:处理超大型数据集
- 数据挖掘:在大型复杂数据集中查找模式,重点是算法技术
- 数据通信:通过可视化帮助将“机器可读”数据转换为“人类可读”信息
数据挖掘可以视为数据科学家工具包中的一项(或一组技能和应用程序)。我喜欢他如何用一种特定于行业的术语将采矿的定义与收藏的区别开来。
但是,我认为在美国英语口语定义中,数据挖掘将与数据收集同义。
至于去哪里精通? 我认为该问题过于笼统,将收到主要基于观点的答案。也许如果您可以改善问题,则可能更容易了解自己的问题。
对于这些术语,@ Clayton发表的内容对我来说似乎是正确的,并且“数据挖掘”是数据科学家的一种工具。但是,我并没有真正使用“数据收集”这个术语,也没有使我成为“数据挖掘”的同义词。
我对您的问题的回答是:不,这些术语不相同。在该领域中的定义可能比较宽松,但是我还没有看到那些术语可以互换使用。在我的工作中,有时我们使用它们来区分目标或方法。对于我们来说,数据科学更多地是关于检验假设的,并且通常仅出于该目的而收集数据。数据挖掘更多地是关于筛选现有数据,寻找结构以及可能产生假设。数据挖掘可以从一个假设开始,但是它通常非常虚弱或笼统,难以自信地解决。(挖掘足够长的时间,您会发现一些东西,尽管它可能变成黄铁矿。)
但是,我们也将“数据科学”作为更广泛的术语使用,以包括“数据挖掘”。我们还讨论了“数据建模”,对我们来说,它是根据数据以及其他知识和目标为感兴趣的系统找到模型。有时,这意味着尝试查找可以解释真实系统的数学模型,而有时则意味着找到足以满足特定目的的预测模型。