使用梯度增强进行分类：如何将预测保持在[0,1]

17

问题

我在努力了解预测是如何保持在内 $[0,1]$ 的时间间隔与梯度推进做二元分类时。

假设我们正在研究二进制分类问题，我们的目标函数是对数损失，其中是的目标变量而是我们当前的模型。 $-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))$ $y$ $\in \{0,1\}$ $H$

当训练下一个弱学习者，使我们的新模型为，应该使的机制是什么？或者，也许是一个更相关的问题，是否存在这样的机制？ $h_i$ $H_i = H_{i-1} + h_i$ $H_i \in [0,1]$

有关我在做什么的更多信息

我正在尝试使用回归树来实现梯度增强。我要避免的是将乘以因子，这样不会小于零或大于零一，然后在该范围内选择以使损失函数最小。 $h_i$ $c \in [0,c_{\text{max}}]$ $H + c_{\text{max}}h$ $c$

这带来了以下问题：经过几轮后，我得到了一个已完全分类的点，并且可用于沿梯度方向推动分类器的最佳拆分希望将这一点推动至一个以上，我确保不会发生这种情况设置。因此，所有下一次迭代将选择相同的拆分和相同的。 $c = 0$ $c = 0$

我尝试了常见的正则化做法

乘以降低学习率由。这只会延迟问题。 $c$ $\mu = 0.01$
对特征空间进行二次采样，但是有些点很容易分类，它们几乎标记了“这是肯定的吗？”中的每个框。形式，几乎每个“良好的分裂”都显示了此行为。

我认为这不是参数问题，应该有更合理的方法来解决此问题。我并没有放弃实现被破坏的可能性，但是我没有找到解决此问题的方法。

在逻辑损失的背景下，我们所要操纵的应该是一个概率，那么我们如何避免它呢？

我的直觉是把我们构建模型，，在S形函数，使得它为界，，我想这会的工作，但我想知道是否有其他的解决方案。由于在分类任务中似乎成功使用了梯度增强，因此应该存在一个“正确的”（即有正当理由）解决方案。 $H$ $[0,1]$

logistic classification boosting

— 眨眼
source

您可能需要

是可乘的，因为

与其他专家的表现是相加的。

H

$H$

\ln (H)

$\ln(H)$

— Alex R.

22

我喜欢将其与线性模型及其扩展到GLM（广义线性模型）的情况进行类比。

在线性模型中，我们拟合线性函数以预测我们的响应

\hat{y} = β_{0} + β_{1} x_{1} + \dots β_{n} x_{n}

$\hat y = \beta_0 + \beta_1 x_1 + \cdots \beta_n x_n$

为了推广到其他情况，我们引入了一个链接函数，该函数将模型的线性部分转换为响应的范围（从技术上讲，这是一个反向链接，但我认为这样想起来就更容易了，即转换线性预测变量转化为响应，而不是将响应转化为线性预测变量）。

例如，逻辑模型使用S形（或logit）函数

\hat{y} = \frac{1}{1 + \exp (- (β_{0} + β_{1} x_{1} + \dots β_{n} x_{n}))}

$\hat y = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 x_1 + \cdots \beta_n x_n))}$

和泊松回归使用指数函数

\hat{y} = \exp (β_{0} + β_{1} x_{1} + \dots β_{n} x_{n})

$\hat y = \exp(\beta_0 + \beta_1 x_1 + \cdots \beta_n x_n)$

为了构建一个梯度提升的类比，我们将这些模型的线性部分替换为提升树的总和。因此，例如，高斯案例（类似于线性回归）成为众所周知的

\hat{y} = \sum_{i} h_{i}

$\hat y = \sum_i h_i$

其中，是我们弱学习的序列。二项式情况类似于逻辑回归（如您在答案中指出的） $h_i$

\hat{y} = \frac{1}{1 + \exp (- \sum_{i} h_{i})}

$\hat y = \frac{1}{1 + \exp\left(-\sum_i h_i\right)}$

泊松增强类似于泊松回归

\hat{y} = \exp (\sum_{i} h_{i})

$\hat y = \exp\left(\sum_i h_i\right)$

问题仍然存在，当涉及链接功能时，如何适应这些增强型模型？对于高斯情况，其中链接是身份函数，通常会听到使弱学习者适应当前工作模型残差的口头禅，但这并没有真正推广到更复杂的模型。诀窍是写损失函数最小化而作为的函数的线性模型的一部分（即，的GLM制剂的一部分）。 $\sum_i \beta_i x_i$

例如，二项式损失通常会遇到

\sum_{i} y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i})

$\sum_i y_i \log(p_i) + (1 - y_i)\log(1 - p_i)$

在此，损失是的函数，是与响应相同尺度的预测值，并且是线性预测器的非线性变换。相反，我们可以将其重新表达为的函数（在这种情况下，也称为对数赔率） $p_i$ $p_i$ $L_i$ $L_i$

\sum_{i} y_{i} L_{i} - \log (1 + \exp (L_{i}))

$\sum_i y_i L_i - \log(1 + \exp(L_i))$

然后，我们可以相对于取其斜率，然后升压以直接最小化该数量。 $L$

仅在最后，当我们想为用户生成预测时，才将链接函数应用于弱学习者的最终序列，以使预测与响应的范围相同。在拟合模型时，我们始终在内部对线性比例进行处理。

— 马修·德鲁里
source

2

同意“编写根据模型的线性部分最小化的损失函数”。但我认为，一个直接的方式去理解它没有获得优势对数是：对模型的线性部分，即

，认为损失功能的

r \in (- \infty, \infty)

$r \in (-\infty, \infty)$

，伪残差只是使损失为wrt

的导数。

- \sum_{i} (y_{i} \log \frac{1}{1 + e^{- r}} + (1 - y_{i}) \log (1 - \frac{1}{1 + e^{- r}}))

$- \sum_i \big( y_i \log \frac{1}{1+e^{-r}}+(1-y_i)\log ( 1 - \frac{1}{1+e^{-r}}) \big)$

r

$r$

— user2830451

@ matthew-drury能否请您在相同算法的K类多项式部分添加一些亮点，在该部分中类似的想法已经适用于该算法？

— MixCode

6

经过一些研究，似乎我的直觉和亚历克斯·R。的评论是正确的。

$[0,1]$ $H$ $H \in \mathbb{R}$

\frac{1}{1 + e^{- H}} \in [0, 1]

$\frac{1}{1 + e^{-H}} \in [0,1]$

H

$H$

Friedman，Hastie和Tibshirani 在Additive logisticgressive：a boosting的统计视图中提出了这一观点，以构建LogitBoost（Wikipedia），AdaBoost（Wikipedia）对Logistic损失的改编。

用非常基本的术语来说，如果可以通过增加S形从线性回归到逻辑回归，那么它也可以将回归提升转化为分类提升。

— 眨眼
source