GBM分类是否遭受班级规模不平衡的困扰?


16

我正在处理有监督的二进制分类问题。我想使用GBM软件包将个人分类为未感染/已感染。我的未感染人数是感染者的15倍。

我想知道GBM模型在班级规模不均衡的情况下是否会受到影响?我没有找到回答该问题的参考文献。

我尝试通过为未感染的个体分配1的权重并为感染的个体分配15的权重来调整权重,但是结果却很差。


1
(旁注)如果您提供GBM所代表的含义以及指向该软件包的链接,将会很有帮助。
2015年

1
您在梯度提升模型中使用哪个损失函数?对于不平衡类,当我使用平均绝对错误时,我发现性能很差,因为它似乎偏爱最普通的类。当我使用均方误差时,性能大大提高了
Ryan Zotti 2015年

仅供以后参考,我发现插入符号对数损失(跨距)所使用的默认损失函数也非常有用。(它会以负对数尺度严重惩罚错误的案例)
Lily Long

Answers:


4

以我的经验,GBM确实确实受到班级规模不平衡的困扰。我使用SMOTE采样取得了成功,该采样创建了综合数据,同时对少数群体进行了超采样。您可以在DMwR包中找到它。


我有点困惑。GBM难道不是一种解决数据不平衡的方法吗?看看这个analyticsvidhya.com/blog/2017/03/…–
Lamothy

5

我认为您的数据与我过去处理过的Secom数据相似,并且遇到很多困难。以下是我尝试的方法:

  • 不同的采样技术
  • 不同的分类器,例如随机森林,ANN,GBM,合奏方法等。

我还尝试了1-Class SVM,它与adaboost,Random Forest等其他产品相比,具有更好的效果。您也可以尝试。

我可以看到您在1年前就问过这个问题,因此,如果您找到了最佳方法,请在此处发表,以便我从中获得帮助,以提高准确性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.