在逻辑回归中为高度偏斜的数据集添加权重


9

我使用的是Logistic回归的标准版本,以使我的输入变量适合二进制输出变量。

但是,在我的问题中,负输出(0s)远大于正输出(1s)。比例为20:1。因此,当我训练分类器时,似乎即使强烈暗示正输出可能性的特征对于其对应参数仍然具有非常低(非常负)的值。在我看来,发生这种情况是因为有太多否定示例将参数拉向它们的方向。

所以我想知道我是否可以为正例添加权重(例如,使用20而不是1)。这可能完全有益吗?如果是这样,我应该如何添加权重(在以下等式中)。

成本函数如下所示:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

此成本函数的梯度(wrt)为:θ

grad=((h(xθ)y)X)

这里, =测试用例数, =特征矩阵, =输出向量, = S型函数, =我们要学习的参数。mxyhθ

最后,我运行梯度下降以找到可能的最低该实现似乎正常运行。J


嗨,我遇到的问题与您描述的完全一样。在我的数据中,很多例子都是负面的,而很少有正面的,对我来说,正确地分类正面更为重要,即使这意味着对某些负面因素进行错误分类也是如此。似乎我也在使用与您相同的方法,因为我使用的是相同的成本函数和梯度方程式。到目前为止,我已经进行了一些测试,并获得了以下结果:-使用7个参数训练样本量:225000测试样本量:75000结果:92%的准确性,尽管在阳性的情况下只有11%的重量
Cartz

1
您正在做的是使损失函数与最大可能性混淆。从推断的角度来看,未加权的mle正在做“正确的事情”,并反映了每个协变量规格的结果是多么罕见。您也可以分离-可能发生的一组特定协变量可以完美预测训练数据中的响应-这将导致较大的负值。
probabilityislogic

2
分类不是一个好目标,也不是逻辑回归的发展方式。正是分类的概念导致了这里列出的所有问题。坚持预测的概率和正确的准确性评分规则
Frank Harrell 2014年

1
@arahant这只是部分正确。具有logit链接的二进制logistic回归仍然有效,因为协变量上的系数为MLE,并且反映了这些变量对1类(与0类相比)的几率产生的影响。但是,在案例控制设计中,截距是始终固定以反映类别1相对于类别0的比例,并且调整截距项以根据某些分类错误的成本函数或某些其他过程来分配类别是完全有效的,因为这不会改变系数在变量上。
Sycorax说恢复Monica

1
谁能想到需要/需要/需要切断电源?
Frank Harrell

Answers:


8

那将不再是最大的可能性。如果使用分类器,则这种极端分布只会带来问题,即,如果您计算的是正确分类的比例,则是不正确的评分规则。从标准最大似然估计的概率是有效的。如果“正数”的总数小于候选变量数的15倍,则可能会按顺序计算罚分的最大似然估计。Y


弗兰克(Frank),是否有参考或支持您的“ 15次...”详细信息的内容?我在一些数据中有类似的失衡现象,我在使用逻辑回归代替其他研究人员开发的ROC方法。我最近遇到了小样本偏差,并在我的代码/程序包中添加了Firth减小偏差的选项作为合适的选项。当我为期刊撰写本文时,像这样的经验法则可以引用一些内容。抱歉,如果参考是您的RMS书籍,因为那本书坐在我的书架上,但还没有放在那儿。
加文·辛普森

有关于小样本偏差和Firth惩罚值的论文。我没有那些方便的东西。关于15:1,请参见biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…–
Frank Harrell

谢谢弗兰克-15:1的问题是我最想念的。我有一些关于小样本偏差和Firth方法的出版物-但是如果您最终有什么要解决的,请告诉我它的含义,我将不胜感激。
加文·辛普森

3
以防万一其他人像我起初那样误读以上内容。问题中的20:1是负面观察与正面观察的比率。弗兰克·哈雷尔(Frank Harrell)答案中的15:1是另外一回事:正面观察与候选独立变量的比率。
亚当·贝利

极端分布还会增加准完全分离的机会,这也会带来问题,尤其是当您拥有分类预测变量时。惩罚在这里也有帮助。
probabilityislogic

3

在这种情况下,通常最好使用可以捕获这种不对称性的灵活链接,而不是逻辑链接。例如,偏斜法线GEVsinh-arcsinh及其中的引用。还有很多其他人,但我不能发布超过2个链接。


您能否提供其他说明更好的链接功能的解释?
DW 2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.