我有一个数据集,其中事件率非常低(40,000总分)。我正在对此进行逻辑回归。我曾与某人讨论过,结果表明逻辑回归不会在如此低的事件发生率数据上提供良好的混淆矩阵。但是由于业务问题及其定义方式,尽管我同意可以删除一些非事件人口,但我无法将事件数从40,000增加到任何更大的数目。
请告诉我您对此的看法,特别是:
- Logistic回归的准确性是否取决于事件发生率,或者是否建议任何最低事件发生率?
- 是否有用于低事件发生率数据的特殊技术?
- 删除非事件总体是否对模型的准确性有利?
我是统计建模的新手,请原谅我的无知,请解决我可能想到的任何相关问题。
谢谢,