数据挖掘中关联规则和决策树之间的实际区别是什么?


19

对这两种技术之间的实际区别是否有一个非常简单的描述?

  • 两者似乎都用于有监督的学习(尽管关联规则也可以处理无监督的学习)。

  • 两者都可以用于预测

我发现最接近“良好”描述的是Statsoft教科书。他们说关联规则用于:

...检测大型数据集中分类变量的特定值之间的关系或关联。

虽然决策树分类器被描述为用于:

...根据案例或对象在一个或多个预测变量上的度量来预测类别因变量类别中的成员资格。

但是,在R Data Mining上,他们给出了与目标字段一起使用关联规则的示例。

因此,两者都可以用来预测组成员身份,这是决策树可以处理非分类输入数据而关联规则不能处理的关键区别吗?还是有更根本的东西?一个站点(sqlserverdatamining.com)说,主要区别在于:

决策树规则基于信息获取,而关联规则基于流行度和/或置信度。

因此(可能回答了我自己的问题)是否意味着纯粹根据关联规则在数据集中出现的频率(以及它们为“真”的频率)进行评估,而决策树实际上正在尝试最小化方差?

如果有人知道一个好的描述,他们愿意指出我的观点,那就太好了。

Answers:


14

F=F1个FCFCF

Ť1个={一世1个一世2}Ť2={一世1个一世3一世4一世5}Ť3={一世2一世3一世4一世5}Ťñ={一世2一世3一世4一世5}
{一世3一世5}{一世4}

事实证明,您可以将关联分析用于某些特定的分类任务,例如,当您的所有功能都是分类的时。您只需要将项目视为特征,但这并不是关联分析的本源。


3
  • “关联规则旨在找到超过给定阈值的所有规则,其中涉及记录的子集重叠,而决策树则在空间中找到大多数记录属于同一类的区域。另一方面,决策树可能会错过关联规则所发现的许多预测规则因为它们先后划分为较小的子集。如果关联规则找不到决策树找到的规则,则可能是因为约束修剪了搜索空间,或者是因为支持或置信度太高。”

  • “尽管在文献中提出了许多优化方法,但是关联规则算法可能很慢,因为它们可以在组合空间上工作,而决策树则可以相对快得多,因为每个拆分都可以连续获取较小的记录子集。”

  • 另一个问题是,决策树可以针对同一规则多次重复相同的属性,因为这样的属性可以很好地区分。这不是大问题,因为规则是连词,因此可以将规则简化为属性的一个间隔,但是该间隔通常较小,并且规则过于具体。”

摘录自:

Ordonez,C.和Zhao,K.(2011)。评估关联规则和决策树以预测多个目标属性。智能数据分析,15(2),173–192。

一篇涵盖该主题的不错的文章,绝对值得一读。


2

我们可能会争辩说关联规则和决策树都向用户建议了一组规则,因此两者相似,但是我们必须了解决策树和关联规则之间的理论差异,以及两者所建议的规则在含义或意义上如何不同正在使用。

首先,决策树是一种有监督的方法,其中算法尝试预测“结果”。在现实生活中,“结果”的典型示例可能是例如流失,欺诈,对竞选活动的反应等。因此,决策树规则用于预测结果。

关联规则学习是一种无监督的方法,该算法通常在大型商业数据库中尝试查找项目之间的关联。大型商业数据库的一个典型示例是包含零售商交易的数据库,例如电子商务网站上的客户购买历史记录。商品可以是从商店购买的产品,也可以是在线流媒体平台上观看的电影。关联规则学习全都涉及一种产品的购买如何诱导另一种产品的购买。

其次,决策树是基于一些杂质/不确定性度量(例如信息增益,基尼系数或熵)构建的,而关联规则是基于支持度,置信度和提升度得出的。

第三,由于决策树是一种“监督”方法,因此其准确性是可以衡量的,而关联规则学习是一种“无监督”方法,因此其准确性是主观的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.