我应该使用哪些初始步骤来理解大型数据集,以及应该使用哪些工具?


10

警告:关于机器学习,我是一个完整的初学者,但渴望学习。

我有一个很大的数据集,我试图在其中找到模式。数据之间可能存在/不存在相关性,或者与已知变量相关,或者与数据中包含的变量相关,但是我尚未意识到它们实际上是变量/相关的。

我猜想这将是数据分析领域中一个熟悉的问题,所以我有几个问题:

  1. “银弹”将把所有这些数据都放入统计/数据分析程序中,并处理数据以寻找已知/未知模式以寻找关系。SPSS是否合适,或者是否存在其他更合适的应用程序。

  2. 我应该学习R之类的语言,并弄清楚如何手动处理数据。这样就不会像我必须手动指定要分析数据的方式以及如何分析这些关系那样使查找关系变得困难。

  3. 专业数据挖掘者将如何解决此问题,他/他将采取什么步骤?

Answers:


11

我将尝试回答您的问题,但是在我想指出之前,使用术语“大数据集”会产生误导,因为“大”是一个相对的概念。您必须提供更多详细信息。如果您要处理出价数据,那么这个事实很可能会影响数据分析首选工具方法算法的选择。我希望以下有关数据分析的想法可以解决您的子问题。请注意,我的积分编号与您的子问题编号不符。但是,我相信它至少可以更好地反映一般的数据分析工作流程,即我的理解程度。

1)首先,我认为您至少需要记住某种概念模型(或者最好是在纸上)。该模型应指导您进行探索性数据分析(EDA)。模型中存在因变量(DV)意味着在分析的后期机器学习(ML)阶段中,您将处理所谓的有监督的ML,而在没有已确定的DV的情况下,您将处理无监督的ML。

2)其次,EDA是至关重要的部分。恕我直言,EDA应该包括多次迭代,以产生描述性统计数据数据可视化,同时您可以进一步了解数据。该阶段不仅会为您提供有关数据集的宝贵见解,而且还将为您的下一个重要阶段提供数据清理和转换。只是将原始数据放入统计软件包中并不能提供太多-对于任何有效的统计分析,数据都应该是干净,正确和一致的。这通常是最耗时和最费力的,但绝对必要的部分。有关此主题的更多详细信息,请阅读以下不错的文章:http://vita.had.co.nz/papers/tidy-data.pdf(由Hadley Wickham撰写)和http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf(作者: Edwin de Jonge和Mark van der Loo。

3)现在,就如您希望完成EDA以及数据清理和转换一样,您准备开始一些与统计有关的阶段。探索性因子分析(EFA)是其中一个阶段,它将使您能够提取数据的基础结构。对于具有大量变量的数据集,EFA的积极副作用是降。而且,从这个意义上说,EFA类似于主成分分析(PCA)和其他降维方法一样,我认为EFA更重要,因为它可以完善数据“描述”的现象的概念模型,从而使数据集有意义。当然,除了EFA之外,您还可以/应该根据先前阶段的发现执行回归分析以及应用机器学习技术

最后,关于软件工具的注释。在我看来,统计软件包的当前状态使得几乎所有主要软件包在功能方面都具有可比的产品。如果您在组织中学习或在软件工具方面具有特定政策和偏好的组织中工作,那么您将受到这些限制。但是,如果不是这种情况,我将根据您对特定编程语言学习曲线和您的职业前景的满意程度,衷心推荐开源统计软件。我当前选择的平台是R Project,它提供成熟,强大,灵活,广泛和开放的统计软件,以及令人惊叹的软件包,专家和爱好者生态系统。其他不错的选择包括PythonJulia和用于处理大数据的特定开源软件,例如HadoopSparkNoSQL数据库,WEKA。有关用于数据挖掘的开源软件的更多示例,包括常规和特定的统计和ML软件,请参阅Wikipedia页面的以下部分:http : //en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications

更新:忘记提及Rattlehttp://rattle.togaware.com),它也是一种非常流行的面向数据挖掘的面向R的开源GUI软件。


1
在一年后再次提出这个问题之后,我可以肯定地说,知道您的数据很关键,您需要记住什么是“好”数据还是“坏”数据。我尝试使用神奇的解决方案,例如神经网络等,但是数据清理过程并不容易。隐藏的马尔可夫模型似乎对肮脏的输入做出了最好的反应,并且能够最好地预测输出),实际上是在ML失败并制作了许多图表之后数周内将数据倒入数据中实际上是非常直观的重要),我能够找到解决问题的方法!
user3791372 '16

@ user3791372很高兴收到您的来信!显然,对于您更好地了解数据科学的各个方面,这一年对您而言是富有成效的。我希望我有更多的机会学习更多,但是,另一方面,我也不能因为我学到了很多东西而抱怨(这并不总是与数据科学有关,但是也许更好)。保持!
Aleksandr Blekh '16

3
  1. SPSS是一个很棒的工具,但是您可以使用计算机上已有的资源(例如Excel)或免费的资源(例如R-project)来完成很多工作。尽管这些工具功能强大,并且可以帮助您识别模式,但是在运行分析之前,您需要对数据有牢固的了解(我建议您对数据运行描述性统计数据,并使用图表探索数据以确保所有内容看起来很正常)。换句话说,您使用的工具不会提供“银色的子弹”,因为输出的价值仅与输入的价值一样(您知道俗语是“垃圾进,垃圾出”)。Aleksandr的回复中已经提到了我要说的大部分内容-当场。

  2. 对于我们这些不懂编码的人来说,R可能是具有挑战性的,但是与R及其包相关的免费资源非常丰富。如果您练习学习该程序,那么您将很快获得牵引力。再次,您将需要熟悉您的数据和无论如何都要进行的分析,并且无论您使用何种统计工具,该事实都将保留。

  3. 首先,我要非常熟悉我的数据(按照Aleksandr的回复(对于初学者而言)中概述的步骤进行操作)。您可能会考虑拿起John Foreman的《 Data Smart》一书。这是一本动手的书,因为John提供了数据集,并且您跟随他的示例(使用Excel)学习了导航和探索数据的各种方法。对于初学者来说,这是一个很好的资源。


2

Aleksandr给出了非常详尽的解释,但是简要地讲,这些是遵循的步骤:

提取数据

清洁数据

特征提取

建筑模型

推断结果

发布结果

重复执行步骤3、4、5,直到获得正确的精度为止。


0

R具有像SPSS这样的pnc对话GUI。他们打印R代码,因此您可以学习和结合他们的努力。我会推荐BlueSky,因为它的对话无所不包。虽然这些软件非常适合EDA,统计数据和可视化,机器学习,但它们的效果并不理想。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.