我将尝试回答您的问题,但是在我想指出之前,使用术语“大数据集”会产生误导,因为“大”是一个相对的概念。您必须提供更多详细信息。如果您要处理出价数据,那么这个事实很可能会影响数据分析首选工具,方法和算法的选择。我希望以下有关数据分析的想法可以解决您的子问题。请注意,我的积分编号与您的子问题编号不符。但是,我相信它至少可以更好地反映一般的数据分析工作流程,即我的理解程度。
1)首先,我认为您至少需要记住某种概念模型(或者最好是在纸上)。该模型应指导您进行探索性数据分析(EDA)。模型中存在因变量(DV)意味着在分析的后期机器学习(ML)阶段中,您将处理所谓的有监督的ML,而在没有已确定的DV的情况下,您将处理无监督的ML。
2)其次,EDA是至关重要的部分。恕我直言,EDA应该包括多次迭代,以产生描述性统计数据和数据可视化,同时您可以进一步了解数据。该阶段不仅会为您提供有关数据集的宝贵见解,而且还将为您的下一个重要阶段提供数据清理和转换。只是将原始数据放入统计软件包中并不能提供太多-对于任何有效的统计分析,数据都应该是干净,正确和一致的。这通常是最耗时和最费力的,但绝对必要的部分。有关此主题的更多详细信息,请阅读以下不错的文章:http://vita.had.co.nz/papers/tidy-data.pdf(由Hadley Wickham撰写)和http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf(作者: Edwin de Jonge和Mark van der Loo。
3)现在,就如您希望完成EDA以及数据清理和转换一样,您准备开始一些与统计有关的阶段。探索性因子分析(EFA)是其中一个阶段,它将使您能够提取数据的基础结构。对于具有大量变量的数据集,EFA的积极副作用是降维。而且,从这个意义上说,EFA类似于主成分分析(PCA)和其他降维方法一样,我认为EFA更重要,因为它可以完善数据“描述”的现象的概念模型,从而使数据集有意义。当然,除了EFA之外,您还可以/应该根据先前阶段的发现执行回归分析以及应用机器学习技术。
最后,关于软件工具的注释。在我看来,统计软件包的当前状态使得几乎所有主要软件包在功能方面都具有可比的产品。如果您在组织中学习或在软件工具方面具有特定政策和偏好的组织中工作,那么您将受到这些限制。但是,如果不是这种情况,我将根据您对特定编程语言,学习曲线和您的职业前景的满意程度,衷心推荐开源统计软件。我当前选择的平台是R Project,它提供成熟,强大,灵活,广泛和开放的统计软件,以及令人惊叹的软件包,专家和爱好者生态系统。其他不错的选择包括Python,Julia和用于处理大数据的特定开源软件,例如Hadoop,Spark,NoSQL数据库,WEKA。有关用于数据挖掘的开源软件的更多示例,包括常规和特定的统计和ML软件,请参阅Wikipedia页面的以下部分:http : //en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications。
更新:忘记提及Rattle(http://rattle.togaware.com),它也是一种非常流行的面向数据挖掘的面向R的开源GUI软件。