我有100,000个观察值(9个虚拟指标变量),具有1000个正值。Logistic回归在这种情况下应该可以正常工作,但临界概率使我感到困惑。
在普通文献中,我们选择50%截止值来预测1和0。我无法执行此操作,因为我的模型给出的最大值约为1%。因此,阈值可以在0.007或附近。
我确实了解ROC
曲线以及曲线下的面积如何帮助我在同一数据集的两个LR模型之间进行选择。但是,ROC并不能帮助我选择最佳截断概率,该概率可以用来对样本外数据进行模型测试。
我是否应该简单地使用最小化阈值的截止值misclassification rate
?(http://www2.sas.com/proceedings/sugi31/210-31.pdf)
添加->对于如此低的事件发生率,我的错误分类率受到大量误报的影响。虽然总体宇宙的大小也很大,但总体上看来该比率很高,但是我的模型不应有那么多的误报(因为它是投资回报模型)。5/10系数很重要。