我们如何预测罕见事件?


11

我正在开发保险风险预测模型。这些模型具有“罕见事件”的特征,例如航空公司的空机预测,硬件故障检测等。准备数据集时,我尝试应用分类,但是由于否定案例的比例很高,因此无法获得有用的分类器。

除了高中统计课程外,我在统计和数据建模方面没有太多经验,所以我有点困惑。

首先想到的是,我一直在考虑使用不均匀的泊松过程模型。我根据事件数据(日期,纬度,经度)对它进行了分类,从而可以很好地估计在特定日期,特定地点的特定时间发生风险的可能性。

我想知道,预测稀有事件的方法/算法是什么?
您如何建议您解决此问题?

Answers:


9

标准方法是“ 极值理论 ”,斯图尔特·科尔斯(Stuart Coles)有一关于该主题的极好的(尽管目前的价格似乎相当不对,甚至是极高的价格)。

使用分类或回归方法不太可能获得良好结果的原因是,这些方法通常取决于预测数据的条件均值,而极端事件通常是由“随机”因素共同导致的,这些因素均沿同一方向排列,因此,它们处于合理结果分布的尾部,通常离条件均值还有很长的路要走。您可以做的是预测整个条件分布,而不仅仅是预测其均值,并通过将分布的尾部积分到某个阈值之上,从而获得一些有关极端事件概率的信息。我发现这在重降水的统计降尺度应用中效果很好。


1
这个理论在python上有实现吗?
user3378649

抱歉,我还没有使用Python编程,所以我在那里没有帮助。
2014年

ÿX1个Xñÿ>ÿ0Pÿ>ÿ0|X1个XñËÿ|X1个Xñÿ>ÿ0Pÿ>ÿ0|X1个Xñ

是的,您可以这样做,但是您要最小化的成本函数并不专注于正确分配分布的尾部,因此,如果您对此感兴趣,最好尝试更明确地对尾部中的事件建模。
迪克兰有袋博物馆,2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.