背景:
在xgboost中,迭代尝试将树到所有示例上,这将最小化以下目标:˚F 吨 Ñ
其中是我们先前最佳估计\ hat {y}的一阶和二阶导数(来自迭代):
和是我们的损失函数。
问题(最终):
在构建并考虑特定拆分中的特定特征时,他们使用以下启发式方法仅评估某些拆分候选者:他们按其x_k对所有示例进行排序,通过排序后的列表并将其二阶导数。他们仅在总和变化超过\ epsilon时才考虑拆分候选。这是为什么???
他们给的解释使我难以理解:
他们声称我们可以像这样重写以前的公式:
而且我没有遵循代数-您能证明为什么相等吗?
然后他们声称“这恰好是带有标签和权重加权平方损失”-我同意这一说法,但我不知道它与他们使用的拆分候选算法有什么关系...ħ 我
感谢和抱歉,如果这个论坛时间太长。