梯度增强是否适合低事件率(如1%)的数据?


14

我正在尝试使用Enterprise Miner在事件发生率约为1%的数据集上进行梯度增强,但是它无法产生任何输出。我的问题是,由于它是基于决策树的方法,因此在这种低事件下使用梯度增强是否正确?


3
您正在处理不平衡的数据集。增强确实是应对它的好方法。有关详细信息,请参见stats.stackexchange.com/questions/157940/…–
DaL

但是对我来说,逻辑回归比随机森林或梯度增强的效果更好。我想通过尝试增强树来改善模型的性能。
user2542275'3

提升基于弱分类器。从理论上讲,任何弱于随机数的弱分类器都可以。实际上,不同的算法更适合某些数据集,因此选择的弱分类器很重要。您能否详细说明使用的算法,其结果和数据集?
DaL

好。关于数据集:样本大小> 4m,事件发生率= 1.2%。p值均<0.05的预测变量的数量为150。具有最显着变量的逻辑回归在20%的人口中得出3的提升。神经网络提升了约2.8。梯度提升没有产生任何输出,直到我使用与先验权重相反的分层采样为止。但是性能差。
user2542275'3

由于您的数据集很大,因此您应该有足够的少数族裔样本,因此问题是由于相对失衡造成的。您具有许多功能,但没有太多功能,但是决策树确实不太适合此类数据集。我建议您创建一个平衡的数据集,并查看您的算法在该数据集上的表现如何。这样一来,您便可以按照我在第一条评论中所述的方式将算法应用于原始数据集。
DaL

Answers:


7

(对此简短回答:)

处理不平衡数据集时,可以使用梯度提升机算法。在处理严重失衡的数据集时,质疑所使用度量的适用性就更为相关。我们应该避免使用基于任意阈值的准确度或召回度等指标,而选择AUCPR或Brier评分等能提供更准确图片的指标-请参见出色的CV.SE主题:为什么不选择准确性?评估分类模型的最佳方法?了解更多)。同样,我们可以通过分配不同的误分类成本来采用成本敏感的方法(例如,参见Masnadi-Shirazi&Vasconcelos(2011)成本敏感的提升对于一般的观点和对已知增强算法的建议更改,或者对于采用更简单方法的特殊有趣应用,请查看针对XGBoost算法的希格斯玻色子挑战报告;Chen&He(2015)《Higgs Boson Discovery with Boosted Trees》(提供更多详细信息)。

值得注意的是,如果我们采用概率分类器(例如GBM),我们可以/应该积极研究校准返回的概率(例如,参见Zadrozny&Elkan(2002)将分类器分数转换为准确的多类概率估计或Kull等( 2017)Beta校准:对二进制分类器的逻辑校准进行的有基础的,易于实施的改进,以潜在地提高学习者的表现。特别是在处理不平衡数据时,与简单地标记数据相比,充分捕捉趋势变化可能会提供更多信息。在此程度上,有些人可能会认为成本敏感型方法最终并没有那么有益(例如,参见Nikolaou等人(2016年)成本敏感的提升算法:我们真的需要它们吗?)。不过,要重申最初的观点,增强算法对于不平衡的数据并不是天生就有坏处,在某些情况下,它们可以提供非常有竞争力的选择。


我认为Brier评分等同于“准确性”度量,因此在评估稀有事件模型时,其准确性将与“准确性”相同。
RobertF

石棉分数不等于准确性。请注意,我们使用预测概率来计算Brier分数,而对于准确性计算,则使用基于预测概率的硬阈值的标签。
usεr11852

感谢您的澄清-对于预测类别,使用估计概率而不是0/1更有意义。
RobertF

凉。我很高兴我们解决了这个问题!:)
usεr11852
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.