xgboost算法中min_child_weight的说明


23

xgboost中min_child_weight参数的定义为:

子级中实例重量的最小总和(hessian)。如果树分区步骤导致叶节点的实例权重之和小于min_child_weight,则构建过程将放弃进一步的分区。在线性回归模式下,这仅对应于每个节点中需要的最少实例数。越大,算法将越保守。

我已经在xgboost上阅读了很多东西,包括原始论文(请参见公式8和等式9后面的文章),该问题以及与xgboost有关的大多数事情,这些事都出现在Google搜索的前几页中。;)

基本上我还是不满意我们为什么要限制粗麻布的总和?从原始论文开始,我唯一的想法是,它与加权分位数草图部分(以及公式3的平方化加权平方损失的重新制定)有关,其中hi是每个实例的“权重”。

另一个问题涉及为什么线性回归模式中的实例数仅仅是个数?我想这与平方和方程的二阶导数有关吗?

Answers:


42

对于回归,节点中每个点的损失为

12(yiyi^)2

yi^1

对于二元logistic回归,节点中每个点的hessian将包含诸如

σ(yi^)(1σ(yi^))

σyi^σ(yi^)

Hessian是用于正则化和限制树深度的理智之举。对于回归,很容易看出如果总是分解为只有1个观察值的节点,可能会过拟合。同样,对于分类,如果坚持要拆分直到每个节点都是纯净的,那么很容易看出您可能过拟合。


多谢您的回覆,由于声誉低下,我无法支持您。
maw501 '18

1
嗨,@ maw501:没问题,我可以。好答案哈达!
Catbuilts

因此,在数据高度不平衡的情况下,您建议的min_child_weight范围是多少?
Mahdi Baghbanzadeh

在不平衡数据集中时,min_child_weight是否也应包括权重?谢谢!@hahdawg
HanaKaze
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.