23 我正在使用SPSS在大约20个预测变量(类别很少的类别)的数据集上运行决策树分类。CHAID(卡方自动交互检测)和CRT / CART(分类和回归树)给了我不同的树。谁能解释CHAID与CRT的相对优点?使用一种方法比另一种方法有什么含义? spss cart — ci属 source
23 我将列出一些属性,稍后再对您的价值进行评估: CHAID 默认情况下使用多路拆分(多路拆分意味着当前节点被拆分为两个以上的节点)。这可能是期望的,也可能不是期望的(它可能导致更好的细分或更容易的解释)。但是,它的作用肯定是使节点中的样本大小变薄,从而导致树的深度减少。当用于细分目的时,这可能会适得其反,因为CHAID需要大量样本才能正常工作。默认情况下,CART会执行二进制拆分(每个节点都拆分为两个子节点)。 CHAID旨在与分类/离散的目标一起使用(XAID用于回归,但自那时以来可能已被合并)。CART绝对可以进行回归和分类。 CHAID使用预修剪的想法。仅当满足重要性标准时才拆分节点。这与上述需要大样本量的问题有关,因为卡方检验在小样本中仅具有很小的功效(通过多次测试的Bonferroni校正甚至进一步有效地降低了这种功效)。另一方面,CART会生长一棵大树,然后将树后修剪为较小的树。 因此,CHAID试图从一开始就防止过度拟合(只有拆分才有明显的关联),而CART可能很容易过度拟合,除非将树修剪掉。另一方面,这使CART在样本内和样本外(对于给定的调整参数组合)都比CHAID表现更好。 我认为最重要的区别是,与CART相比,CHAID中的拆分变量和拆分点选择的混淆程度较小。当使用树进行预测时,这在很大程度上是无关紧要的,但是当使用树进行解释时,这是一个重要的问题:将算法的这两个部分高度混淆的树被称为“偏向于变量选择”(一个不幸的名字) 。这意味着拆分变量选择更喜欢具有许多可能拆分的变量(例如指标预测变量)。从这个意义上说,CART是高度“有偏见的”,CHAID并不是那么多。 使用代理拆分,CART知道如何处理缺失值(代理拆分意味着对于预测变量,缺少值(NA),该算法使用的其他预测变量不如主要拆分变量那么“好”,而是模仿主要变量产生的拆分分离器)。CHAID没有这样的东西afaik。 因此,根据您的需求,我建议您使用CHAID(如果样本大小一定,并且解释方面更为重要)。同样,如果需要多路分割或较小的树,则CHAID更好。另一方面,CART是运行良好的预测机器,因此,如果预测是您的目标,那么我会选择CART。 — 桃木 source 1 (+1)。不错的概述。您能解释一下“多路分割”和“代用分割”吗?如果拆分不是二分法,是多路拆分吗? — COOLSerdash 1 @Momo:非常感谢您提供最新的答案。关于多路拆分,我发现了Hastie等人的以下有趣的陈述。(2013)统计学习的要素:“ [...]虽然[多路拆分]有时可能有用,但它不是一个好的通用策略。[...]由于多路拆分可以通过一系列二进制实现分裂,后者是首选。” 我想知道这是否真的像他们所说的那样确定(我对机器学习不是很熟练),但另一方面,他们的书被视为参考。 — COOLSerdash 2013年 是的,一系列二进制拆分可以与多路拆分相同。它们也可以不同。我倾向于同意这一说法。需要注意的另一件事是,对于给定节点的二进制拆分,通过穷举搜索查找拆分点在算法上更简单,更快捷。 — Momo 2013年 非常完整的答案。我在超过100.000个数据库的重新研究中使用了CHAID。在这个级别上,分类非常精确,但是我建议尝试几次尝试使用不同数量的分区和较低级别的树(SPSS软件允许以前确定此参数)。这是因为CHAID会生成具有多个组(多次拆分)的分类树,如果数据库很大,则糟糕得多。最终的树会很大。最后,不要忘记使用数据库样本划分的“内部控制”。另请参见SPSS分类树手册, — 网址: 那QUEST呢? — Madhu Sareen
8 所有单树方法都涉及数量惊人的多个比较,这给结果带来了极大的不稳定。这就是为什么要获得令人满意的预测辨别力,某种形式的树木平均(装袋,助推,随机森林)是必要的(除非您失去了树木的优势-可解释性)。单棵树的简单性在很大程度上是一种幻想。它们之所以简单,是因为它们在某种意义上是错误的,即将树训练为数据的多个大子集会揭示树结构之间的巨大分歧。 我没有看过任何最近的CHAID方法,但是CHAID最初的化身是对数据过度解释的一次很好的练习。 — 弗兰克·哈雷尔 source