3
逻辑回归:最大化正阳性-误阳性
我有一个逻辑回归模型(通过弹性网络正则化通过R中的glmnet拟合),并且我想最大化真实肯定和错误肯定之间的差异。为此,请注意以下步骤: 拟合标准逻辑回归模型 使用预测阈值为0.5,确定所有积极预测 为肯定预测的观测值分配权重1,为所有其他权重分配权重0 拟合加权逻辑回归模型 这种方法有什么缺点?解决此问题的正确方法是什么? 希望最大程度地提高正负数之间的差异的原因是由于我的应用程序的设计。作为课堂项目的一部分,我正在在线市场上建立一个自主参与者-如果我的模型预测它可以购买某些东西并以后以更高的价格出售,它就会出价。我想坚持逻辑回归并根据固定成本和单价增量(我在每笔交易中获得或损失相同的金额)输出二进制结果(成功,失败)。误报会伤害我,因为这意味着我买了东西,无法以更高的价格出售。但是,错误的否定并不会伤害我(仅就机会成本而言),因为这仅意味着如果我不购买,但如果我有购买,我就可以赚钱。同样, 我同意0.5的临界值是完全任意的,并且当我在预测阈值上优化了步骤1中的模型时,该模型在真/假阳性之间产生了最大差异,结果接近0.4。我认为这是由于数据的偏斜性质-负数与正数之比约为1:3。 现在,我正在执行以下步骤: 将数据拆分为训练/测试 在训练中拟合模型,在测试集中进行预测并计算真假阳性之间的差异 完全拟合模型,在测试集中进行预测并计算真假阳性之间的差异 尽管训练集是全套的子集,但在步骤3中,正确/错误肯定之间的差异小于在步骤2中。由于我不在乎#3中的模型是否具有更多的真实负数和更少的虚假负数,因此我可以做些什么而无需更改似然函数本身?