xgboost算法中min_child

xgboost中min_child_weight参数的定义为：

子级中实例重量的最小总和（hessian）。如果树分区步骤导致叶节点的实例权重之和小于min_child_weight，则构建过程将放弃进一步的分区。在线性回归模式下，这仅对应于每个节点中需要的最少实例数。越大，算法将越保守。

我已经在xgboost上阅读了很多东西，包括原始论文（请参见公式8和等式9后面的文章），该问题以及与xgboost有关的大多数事情，这些事都出现在Google搜索的前几页中。;）

基本上我还是不满意我们为什么要限制粗麻布的总和？从原始论文开始，我唯一的想法是，它与加权分位数草图部分（以及公式3的平方化加权平方损失的重新制定）有关，其中 $h_i$ 是每个实例的“权重”。

另一个问题涉及为什么线性回归模式中的实例数仅仅是个数？我想这与平方和方程的二阶导数有关吗？

machine-learning xgboost hessian

— maw501
source

对于回归，节点中每个点的损失为

$\frac{1}{2}(y_i - \hat{y_i})^2$

$\hat{y_i}$ $1$

对于二元logistic回归，节点中每个点的hessian将包含诸如

$\sigma(\hat{y_i})(1 - \sigma(\hat{y_i}))$

$\sigma$ $\hat{y_i}$ $\sigma(\hat{y_i})$

Hessian是用于正则化和限制树深度的理智之举。对于回归，很容易看出如果总是分解为只有1个观察值的节点，可能会过拟合。同样，对于分类，如果坚持要拆分直到每个节点都是纯净的，那么很容易看出您可能过拟合。

— 哈道
source

多谢您的回覆，由于声誉低下，我无法支持您。

— maw501 '18

嗨，@ maw501：没问题，我可以。好答案哈达！

— Catbuilts

因此，在数据高度不平衡的情况下，您建议的min_child_weight范围是多少？

— Mahdi Baghbanzadeh

在不平衡数据集中时，min_child_weight是否也应包括权重？谢谢！@hahdawg

— HanaKaze

xgboost算法中min_child_weight的说明