问题
我在努力了解预测是如何保持在内的时间间隔与梯度推进做二元分类时。
假设我们正在研究二进制分类问题,我们的目标函数是对数损失,其中是的目标变量而是我们当前的模型。
当训练下一个弱学习者,使我们的新模型为,应该使的机制是什么?或者,也许是一个更相关的问题,是否存在这样的机制?
有关我在做什么的更多信息
我正在尝试使用回归树来实现梯度增强。我要避免的是将乘以因子,这样不会小于零或大于零一,然后在该范围内选择以使损失函数最小。
这带来了以下问题:经过几轮后,我得到了一个已完全分类的点,并且可用于沿梯度方向推动分类器的最佳拆分希望将这一点推动至一个以上,我确保不会发生这种情况设置。因此,所有下一次迭代将选择相同的拆分和相同的。
我尝试了常见的正则化做法
- 乘以降低学习率由。这只会延迟问题。μ = 0.01
- 对特征空间进行二次采样,但是有些点很容易分类,它们几乎标记了“这是肯定的吗?”中的每个框。形式,几乎每个“良好的分裂”都显示了此行为。
我认为这不是参数问题,应该有更合理的方法来解决此问题。我并没有放弃实现被破坏的可能性,但是我没有找到解决此问题的方法。
在逻辑损失的背景下,我们所要操纵的应该是一个概率,那么我们如何避免它呢?
我的直觉是把我们构建模型,,在S形函数,使得它为界,[ 0 ,1 ],我想这会的工作,但我想知道是否有其他的解决方案。由于在分类任务中似乎成功使用了梯度增强,因此应该存在一个“正确的”(即有正当理由)解决方案。