在R中对树进行分区:party与rpart


15

自从我看着分区树已经有一段时间了。上次我做这种事情时,我喜欢R中的聚会(由Hothorn创建)。通过采样进行条件推断的想法对我来说很有意义。但是,rpart也具有吸引力。

在当前的应用程序中(我无法提供详细信息,但是它涉及尝试确定谁将在大量被捕者中入狱),我无法使用高级方法,例如随机森林,装袋,助推等。-我需要一个容易解释的方法规则。

我还希望对拆分的节点进行一些手动控制,如Zhang&Singer(2010)递归分区和应用中所建议。该书随附的免费软件允许这样做,但在其用户输入中相当原始。

有什么建议或建议吗?

Answers:


8

我同意@Iterator的观点,这种方法对于rpart更容易解释。但是,如果您正在寻找易于解释的规则,则派对(没有袋装树)在解释预测方面不会有任何损失-您仍然只有一棵树。如果您也有兴趣研究结果变量的驱动因素(而不仅仅是纯粹的预测能力),我仍然会认为这是前进的道路-解释说决策树(如rpart)在选择哪一个方面可能有很大的偏见。变量很重要,它如何创建拆分。参与方使用排列检验并统计确定哪些变量最重要以及如何进行拆分。因此,party使用统计检验来找到最佳结构,而不是偏向于像rpart这样的具有多个级别的分类变量。


1
好答案。我认为你已经打了一个很好的理由,为什么党是更好地为一种先进的观众,以及为什么它是一个好主意,教育观众,以帮助他们接受使用方。
Iterator 2012年

4

[注意:请参阅下面的更新1。]我发现的方法rpart要比解释起来容易得多party。但是,后者要复杂得多,并且可能会提供更好的模型。我有时解释的方式party是说它是产生局部线性(或GLM)模型的基础。我通过指出rpart所有落入叶节点的元素(即,由分割线界定的盒子/区域)的结果是恒定的来对此进行说明。即使通过本地模型可能有所改进,但您只能得到恒定的预测。

相反, party开发拆分以潜在地优化区域模型。实际上,它使用的是不同于模型最优性的标准,但是您需要衡量自己的能力来解释差异,以确定是否可以很好地解释它。研究人员可以party轻松获取有关其论文的信息,但对于不愿考虑使用简单方法(例如随机森林,增强等)的人来说可能会充满挑战。在方法论和结果方面进行了解释,它们为引入更复杂的基于树的模型提供了不错的垫脚石。

简而言之,我想说的是您必须做rpart的很清楚,您可以使用它party来提高准确性/性能,但是我不会在不介绍的party情况下进行介绍rpart


更新1.我的答案基于对party一两年前的理解。它已经成长了很多,但是我会修改我的回答,说我仍然建议rpart您简洁明了,如果“花哨的”成为客户/合作者的重要标准,我还是会建议的。但是,party在将某人介绍给之后,我将尝试迁移到使用更多功能rpart。最好在简单的上下文中以损失函数,分割条件等为起点,然后再引入涉及更多涉及概念的软件包和方法。


2
我认为您对该party套件的功能有些困惑。pure party函数仅构成一个简单的树,就像rpart叶子中具有多数表决权一样。的mob功能party是在树叶上构建具有更复杂模型的树(并根据参数不稳定性选择拆分)
。– Shea Parkes

1
@SheaParkes你是对的。已经有一段时间了,我不确定是否只使用过mob或者软件包的其余部分是否增长了很多,例如,我不记得以前看到过随机森林。我会修改答案...
Iterator

2
实际上,我也忘记了一点。它是ctree制作一棵树,cforest制作随机森林并mob制作基于模型的叶子。而且,《森林》很有趣,但是预测起来却非常慢。
Shea Parkes '02

我将调查暴民,我不认为这是我上次使用聚会时不存在的。这次,林应用程序不适合我。
彼得·弗洛姆

我想@PeterFlom我想mob可能从一开始就已经存在,或者至少在之后ctree。自2009年或更早以来就已经存在。无论如何,只是表明我们都可以在SE上学习新知识。:)
Iterator 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.