为什么逻辑回归能产生经过良好校准的模型?


13

我了解到,逻辑回归通常用于预测网络上的点击率的原因之一是,它可以生成经过良好校准的模型。对此有很好的数学解释吗?


2
进行逻辑回归以预测概率->如果不是过度拟合,则会导致经过校正的预测。尽管大多数机器学习模型都不预测概率,而是预测一个类-而且从这些预测中得出的伪概率存在一定的扭曲->因此请注意已进行很好的校准
查尔斯2016年

2
我应该在问题中弄清楚,但我的问题更多是关于为什么LR对预测概率如此有用的原因。
lsankar4033 '16

值得注意的是,您可以将Logistic回归简单地拟合到校准不良的分类器的输出中,以获得校准的模型。这称为Platt Scaling en.wikipedia.org/wiki/Platt_scaling
–generic_user

Answers:


15

是。

回归的预测概率向量p满足矩阵方程p

Xt(py)=0

其中是设计矩阵,y是响应向量。这可以看作是线性方程式的集合,一个线性方程式来自设计矩阵X的每一列。XyX

专门针对截距列(在转置矩阵中为一行),相关联的线性方程为

i(piyi)=0

因此总体平均预测概率等于响应的平均值。

更一般地,对于二元特征列,相关联的线性方程为xij

ixij(piyi)=ixij=1(piyi)=0

因此,即使专门针对那些记录,预测概率的总和(因此也就是平均值)等于响应的总和。xij=1


1
p1/(1+exp(x))

1
是的,p就是这种形式。第一个方程来自将损失函数的导数设置为零。
马修·德鲁里

1
这仅解决了我们不需要的大校准:小校准。
弗兰克·哈雷尔

1
@FrankHarrell关心细节吗?我以前没听过这些话。
马修·德鲁里

3
概率预测文献的历史可以追溯到1950年美国气象局-这就是Brier评分的首次使用。进行小规模校准意味着,如果以0.01、0.02,...,0.99的预测风险进行观察,则每种方法都是准确的,即,在预测风险为0.4的所有时间中,结果的发生率约为0.4时间。我将下一步称为“微小校正”:对于预测为0.4的男性,其结果出现的时间为0.4,然后对于女性。
弗兰克·哈雷尔

2

我想我可以为您提供一个易于理解的解释,如下所示:


J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

这意味着,如果模型经过充分训练,我们为训练集获得的预测概率就会自行分散,从而对于每个特征,特征的加权(所有)值之和等于该特征的值之和阳性样本。

αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

显然,我们可以看到逻辑回归得到了很好的校准。

参考:对数线性模型和条件随机字段,作者:Charles Elkan

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.