我正在尝试使用Enterprise Miner在事件发生率约为1%的数据集上进行梯度增强,但是它无法产生任何输出。我的问题是,由于它是基于决策树的方法,因此在这种低事件下使用梯度增强是否正确?
我正在尝试使用Enterprise Miner在事件发生率约为1%的数据集上进行梯度增强,但是它无法产生任何输出。我的问题是,由于它是基于决策树的方法,因此在这种低事件下使用梯度增强是否正确?
Answers:
(对此简短回答:)
处理不平衡数据集时,可以使用梯度提升机算法。在处理严重失衡的数据集时,质疑所使用度量的适用性就更为相关。我们应该避免使用基于任意阈值的准确度或召回度等指标,而选择AUCPR或Brier评分等能提供更准确图片的指标-请参见出色的CV.SE主题:为什么不选择准确性?评估分类模型的最佳方法?了解更多)。同样,我们可以通过分配不同的误分类成本来采用成本敏感的方法(例如,参见Masnadi-Shirazi&Vasconcelos(2011)成本敏感的提升对于一般的观点和对已知增强算法的建议更改,或者对于采用更简单方法的特殊有趣应用,请查看针对XGBoost算法的希格斯玻色子挑战报告;Chen&He(2015)《Higgs Boson Discovery with Boosted Trees》(提供更多详细信息)。
值得注意的是,如果我们采用概率分类器(例如GBM),我们可以/应该积极研究校准返回的概率(例如,参见Zadrozny&Elkan(2002)将分类器分数转换为准确的多类概率估计或Kull等( 2017)Beta校准:对二进制分类器的逻辑校准进行的有基础的,易于实施的改进,以潜在地提高学习者的表现。特别是在处理不平衡数据时,与简单地标记数据相比,充分捕捉趋势变化可能会提供更多信息。在此程度上,有些人可能会认为成本敏感型方法最终并没有那么有益(例如,参见Nikolaou等人(2016年)成本敏感的提升算法:我们真的需要它们吗?)。不过,要重申最初的观点,增强算法对于不平衡的数据并不是天生就有坏处,在某些情况下,它们可以提供非常有竞争力的选择。