GBM的n.minobsinnode参数在R中的作用


21

我想知道GBM软件包中n.minobsinnode参数的含义。我阅读了手册,但不清楚它的作用。该数字应该小还是大以改善结果?


9
“这个问题不太可能帮助任何未来的访客”。我是未来的访客,我发现它会有所帮助。
Flounderer

1
我也发现它很有帮助。
oaxacamatt

Answers:


25

在GBM算法的每个步骤中,都会构造一个新的决策树。增长决策树时的问题是“何时停止?”。您可以做的最远的就是拆分每个节点,直到每个终端节点只有1个观测值。这将对应于n.minobsinnode = 1。或者,当每个节点中有一定数量的观测值时,节点的拆分可以停止。R GBM软件包的默认值为10。

最佳使用价值是什么?这取决于数据集以及是否要进行分类或回归。由于将每个树的预测作为终端节点中所有输入的因变量的平均值,因此值1对于回归(!)可能效果不佳,但可能适合分类。

较高的值表示较小的树,因此可以使算法运行更快并使用较少的内存。

通常,结果对该参数不是很敏感,并且鉴于GBM性能的随机性,实际上可能很难确定确切的值是“最佳”。一般而言,交互深度,收缩率和树木数量都将更为重要。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.