CART树是否捕获预测变量之间的交互？

9

此纸的权利要求，在CART，因为在每一步骤的单个协变量执行二进制分裂，所有分割是协变量之间正交，并因此相互作用不考虑。

但是，相反，许多非常严肃的参考文献声称，树的层次结构可以保证自动对预测变量之间的交互进行建模（例如，本文，当然还有Hastie）。

谁是对的？CART生长的树是否捕获输入变量之间的相互作用？

machine-learning classification data-mining cart

— 安托万
source

该论点的缺陷在于，分割是在先前完成的分割所定义的协变量子集上进行的。

@mbq，因此新的拆分相对于先前的拆分是有条件的...我知道了...我想我很难理解“由给定预测变量上的先前拆分所限制”等同于“与该预测变量进行交互” “ ...

— Antoine

12

CART 可以捕获交互作用。当解释变量对响应变量取决于的级别时，会发生与之间的交互作用。在以下示例中会发生这种情况： $X_1$ $X_2$ $X_1$ $Y$ $X_2$

在此处输入图片说明

经济状况不佳（称为）的影响取决于要购买的建筑物类型（）。当投资办公大楼时，恶劣的经济条件使投资的预计价值减少了14万美元。但是，在投资公寓楼时，投资的预计价值减少20,000美元。经济状况不佳对您的投资的预计价值的影响取决于所购买房地产的类型。这是一种交互作用。 $X_1$ $X_2$

— TrynnaDoStat
source

2

简短答案

CART需要帮助来捕获交互。

采用精确的贪心算法（Chen and Guestrin，2016）：

叶子上的均值将是一个有条件的期望，但通往叶子的方式上的每个拆分均彼此独立。如果功能部件A本身无关紧要，但与功能部件B的相互作用很重要，则该算法将不会在功能部件A上拆分。如果没有此拆分，该算法将无法预见在功能部件B上的拆分，这是生成交互所必需的。

树可以在最简单的场景中选择交互。如果您有一个具有两个特征和目标的数据集，则除了和，该算法别无其他可分裂的内容，因此，您将获得四张具有正确估计叶子。 $x_1, x_2$ $y = XOR(x_1, x_2)$ $x_1$ $x_2$ $XOR$

具有许多功能，正则化和拆分次数的硬性限制，同一算法可以省略交互。

张的一个例子（“获奖数据科学竞赛”，2015年）：

一些学习方法可以更好地处理交互。

这是《统计学习的要素》中的表格（“提取特征线性组合的能力”行）：

— 安东·塔拉森科（Anton Tarasenko）
source