我使用的是Logistic回归的标准版本,以使我的输入变量适合二进制输出变量。
但是,在我的问题中,负输出(0s)远大于正输出(1s)。比例为20:1。因此,当我训练分类器时,似乎即使强烈暗示正输出可能性的特征对于其对应参数仍然具有非常低(非常负)的值。在我看来,发生这种情况是因为有太多否定示例将参数拉向它们的方向。
所以我想知道我是否可以为正例添加权重(例如,使用20而不是1)。这可能完全有益吗?如果是这样,我应该如何添加权重(在以下等式中)。
成本函数如下所示:
此成本函数的梯度(wrt)为:
这里, =测试用例数, =特征矩阵, =输出向量, = S型函数, =我们要学习的参数。
最后,我运行梯度下降以找到可能的最低该实现似乎正常运行。
嗨,我遇到的问题与您描述的完全一样。在我的数据中,很多例子都是负面的,而很少有正面的,对我来说,正确地分类正面更为重要,即使这意味着对某些负面因素进行错误分类也是如此。似乎我也在使用与您相同的方法,因为我使用的是相同的成本函数和梯度方程式。到目前为止,我已经进行了一些测试,并获得了以下结果:-使用7个参数,训练样本量:225000,测试样本量:75000结果:92%的准确性,尽管在阳性的情况下只有11%的重量
—
Cartz
您正在做的是使损失函数与最大可能性混淆。从推断的角度来看,未加权的mle正在做“正确的事情”,并反映了每个协变量规格的结果是多么罕见。您也可以分离-可能发生的一组特定协变量可以完美预测训练数据中的响应-这将导致较大的负值。
—
probabilityislogic
分类不是一个好目标,也不是逻辑回归的发展方式。正是分类的概念导致了这里列出的所有问题。坚持预测的概率和正确的准确性评分规则
—
Frank Harrell 2014年
@arahant这只是部分正确。具有logit链接的二进制logistic回归仍然有效,因为协变量上的系数为MLE,并且反映了这些变量对1类(与0类相比)的几率产生的影响。但是,在案例控制设计中,截距是始终固定以反映类别1相对于类别0的比例,并且调整截距项以根据某些分类错误的成本函数或某些其他过程来分配类别是完全有效的,因为这不会改变系数在变量上。
—
Sycorax说恢复Monica
谁能想到需要/需要/需要切断电源?
—
Frank Harrell