我想研究有限人群中的罕见事件。由于我不确定哪种策略最合适,因此我很高兴获得与该问题相关的技巧和参考,尽管我知道它已被广泛涵盖。我只是真的不知道从哪里开始。
我的问题是一门政治学,我的人口有限,有515,843条记录。它们与具有513,334个“ 0”和2,509个“ 1”的二进制因变量关联。我可以将我的“ 1”称为罕见事件,因为它们仅占人口的0.49%。
我有一组大约10个独立变量,我想建立一个模型来解释“ 1”的存在。像我们许多人一样,我阅读了King&Zeng在2001年发表的有关罕见事件校正的文章。他们的方法是使用案例控制设计来减少“ 0”的数量,然后对截距进行校正。
但是,这篇文章说,如果我已经收集了整个人群的数据,那么就不需要King&Zeng的论证了,这就是我的情况。因此,我必须使用经典的logit模型。对我来说不幸的是,尽管我获得了很好的显着系数,但是我的模型在预测方面完全没有用(无法预测99.48%的“ 1”)。
在阅读King&Zeng的文章之后,我想尝试一种案例控制设计,并且只选择10%的“ 0”和所有“ 1”。在几乎相同的系数下,该模型能够预测应用于全部人口的“ 1”的几乎三分之一。当然,有很多假阳性。
因此,我有三个问题想问你:
1)如果在您完全了解人口信息后,King&Zeng的方法是可取的,那么为什么他们会在文章中了解人口信息的情况下证明自己的观点呢?
2)如果我在logit回归中具有好的系数和微不足道的系数,但是预测能力很差,这是否意味着这些变量所解释的变化没有意义?
3)处理罕见事件的最佳方法是什么?我阅读了有关King的重新登录模型,Firth的方法,确切的登录等信息。我必须承认,我在所有这些解决方案中都迷失了。