数据挖掘分为描述性或预测性。描述性数据挖掘用于搜索海量数据集,并发现数据中意外结构或关系,模式,趋势,聚类和离群值的位置。另一方面,Predictive是为回归,分类,模式识别或机器学习任务构建模型和过程,并在将这些模型和过程应用于新鲜数据时评估其预测准确性。
用于搜索高维数据中的图案或结构的机制可能是手动的,也可能是自动的。搜索可能需要交互式查询数据库管理系统,或者可能需要使用可视化软件来发现数据中的异常。用机器学习的术语来说,描述性数据挖掘被称为无监督学习,而预测性数据挖掘被称为监督学习。
数据挖掘中使用的大多数方法都与统计和机器学习中开发的方法有关。这些方法中最重要的是回归,分类,聚类和可视化的一般主题。由于数据集的巨大规模,数据挖掘的许多应用集中于降维技术(例如,变量选择)以及怀疑高维数据位于低维超平面上的情况。最近的注意力已经转向识别位于非线性表面或流形上的高维数据的方法。
在数据挖掘中,也有一些情况,从经典意义上讲,统计推断没有任何意义或具有可疑的有效性:前者发生在我们整个人口中寻找答案时,后者发生在数据集为“便利”样本而不是从一些人口众多中随机抽取的样本。当按时间收集数据时(例如,零售交易,股票市场交易,患者记录,天气记录),采样也可能没有意义。观察的时间顺序对于理解生成数据的现象至关重要,并且在观察可能高度相关时将它们视为独立的观察将提供有偏差的结果。
除了统计理论和方法外,数据挖掘的主要组成部分还包括计算和计算效率,自动数据处理,动态和交互式数据可视化技术以及算法开发。
数据挖掘中最重要的问题之一是可伸缩性的计算问题。为计算标准探索性和确认性统计方法而开发的算法被设计为在应用于中小型数据集时具有快速和高效的计算能力;然而,已经表明,这些算法中的大多数都无法应对处理海量数据集的挑战。随着数据集的增长,许多现有算法都显示出急剧降低(甚至停止)的趋势。