CHAID与CRT（或CART）

我正在使用SPSS在大约20个预测变量（类别很少的类别）的数据集上运行决策树分类。CHAID（卡方自动交互检测）和CRT / CART（分类和回归树）给了我不同的树。谁能解释CHAID与CRT的相对优点？使用一种方法比另一种方法有什么含义？

spss cart

— ci属
source

我将列出一些属性，稍后再对您的价值进行评估：

CHAID 默认情况下使用多路拆分（多路拆分意味着当前节点被拆分为两个以上的节点）。这可能是期望的，也可能不是期望的（它可能导致更好的细分或更容易的解释）。但是，它的作用肯定是使节点中的样本大小变薄，从而导致树的深度减少。当用于细分目的时，这可能会适得其反，因为CHAID需要大量样本才能正常工作。默认情况下，CART会执行二进制拆分（每个节点都拆分为两个子节点）。
CHAID旨在与分类/离散的目标一起使用（XAID用于回归，但自那时以来可能已被合并）。CART绝对可以进行回归和分类。
CHAID使用预修剪的想法。仅当满足重要性标准时才拆分节点。这与上述需要大样本量的问题有关，因为卡方检验在小样本中仅具有很小的功效（通过多次测试的Bonferroni校正甚至进一步有效地降低了这种功效）。另一方面，CART会生长一棵大树，然后将树后修剪为较小的树。
因此，CHAID试图从一开始就防止过度拟合（只有拆分才有明显的关联），而CART可能很容易过度拟合，除非将树修剪掉。另一方面，这使CART在样本内和样本外（对于给定的调整参数组合）都比CHAID表现更好。
我认为最重要的区别是，与CART相比，CHAID中的拆分变量和拆分点选择的混淆程度较小。当使用树进行预测时，这在很大程度上是无关紧要的，但是当使用树进行解释时，这是一个重要的问题：将算法的这两个部分高度混淆的树被称为“偏向于变量选择”（一个不幸的名字）。这意味着拆分变量选择更喜欢具有许多可能拆分的变量（例如指标预测变量）。从这个意义上说，CART是高度“有偏见的”，CHAID并不是那么多。
使用代理拆分，CART知道如何处理缺失值（代理拆分意味着对于预测变量，缺少值（NA），该算法使用的其他预测变量不如主要拆分变量那么“好”，而是模仿主要变量产生的拆分分离器）。CHAID没有这样的东西afaik。

因此，根据您的需求，我建议您使用CHAID（如果样本大小一定，并且解释方面更为重要）。同样，如果需要多路分割或较小的树，则CHAID更好。另一方面，CART是运行良好的预测机器，因此，如果预测是您的目标，那么我会选择CART。

— 桃木
source

（+1）。不错的概述。您能解释一下“多路分割”和“代用分割”吗？如果拆分不是二分法，是多路拆分吗？

— COOLSerdash

@Momo：非常感谢您提供最新的答案。关于多路拆分，我发现了Hastie等人的以下有趣的陈述。（2013）统计学习的要素：“ [...]虽然[多路拆分]有时可能有用，但它不是一个好的通用策略。[...]由于多路拆分可以通过一系列二进制实现分裂，后者是首选。” 我想知道这是否真的像他们所说的那样确定（我对机器学习不是很熟练），但另一方面，他们的书被视为参考。

— COOLSerdash 2013年

是的，一系列二进制拆分可以与多路拆分相同。它们也可以不同。我倾向于同意这一说法。需要注意的另一件事是，对于给定节点的二进制拆分，通过穷举搜索查找拆分点在算法上更简单，更快捷。

— Momo 2013年

非常完整的答案。我在超过100.000个数据库的重新研究中使用了CHAID。在这个级别上，分类非常精确，但是我建议尝试几次尝试使用不同数量的分区和较低级别的树（SPSS软件允许以前确定此参数）。这是因为CHAID会生成具有多个组（多次拆分）的分类树，如果数据库很大，则糟糕得多。最终的树会很大。最后，不要忘记使用数据库样本划分的“内部控制”。另请参见SPSS分类树手册，

— 网址：

那QUEST呢？

— Madhu Sareen

所有单树方法都涉及数量惊人的多个比较，这给结果带来了极大的不稳定。这就是为什么要获得令人满意的预测辨别力，某种形式的树木平均（装袋，助推，随机森林）是必要的（除非您失去了树木的优势-可解释性）。单棵树的简单性在很大程度上是一种幻想。它们之所以简单，是因为它们在某种意义上是错误的，即将树训练为数据的多个大子集会揭示树结构之间的巨大分歧。

我没有看过任何最近的CHAID方法，但是CHAID最初的化身是对数据过度解释的一次很好的练习。

— 弗兰克·哈雷尔
source