需要帮助来了解xgboost的近似拆分点建议
背景: 在xgboost中,迭代尝试将树到所有示例上,这将最小化以下目标:˚F 吨 Ñtttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] 其中gi,higi,hig_i, h_i是我们先前最佳估计\ hat {y}的一阶和二阶导数y^y^\hat{y}(来自迭代t−1t−1t-1): gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) 和lll是我们的损失函数。 问题(最终): 在构建ftftf_t并考虑特定拆分中的特定特征kkk时,他们使用以下启发式方法仅评估某些拆分候选者:他们按其x_k对所有示例进行排序xkxkx_k,通过排序后的列表并将其二阶导数hihih_i。他们仅在总和变化超过\ epsilon时才考虑拆分候选ϵϵ\epsilon。这是为什么??? 他们给的解释使我难以理解: 他们声称我们可以像这样重写以前的公式: ∑i=1n12hi[ft(xi)−gi/hi]2+constant∑i=1n12hi[ft(xi)−gi/hi]2+constant\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - g_i/h_i]^2 + constant 而且我没有遵循代数-您能证明为什么相等吗? 然后他们声称“这恰好是带有标签和权重加权平方损失”-我同意这一说法,但我不知道它与他们使用的拆分候选算法有什么关系...ħ 我gi/higi/higi/hihihih_i 感谢和抱歉,如果这个论坛时间太长。