高度不平衡数据集的培训方法


16

我有一个高度不平衡的测试数据集。正集包含100个案例,而负集包含1500个案例。在训练方面,我有一个更大的候选库:正面训练集有1200个案例,负面训练集有12000个案例。对于这种情况,我有几种选择:

1)在整个训练集中使用加权SVM(P:1200,N:12000)

2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个否定案例。

在确定哪种方法更好方面是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡训练集?


1
请检查以下问题:具有“罕见”事件的监督学习以及使用SVM处理不平衡多类数据集的最佳方法。这有帮助吗?坦白说,您的问题听起来很相似;)。
steffen 2012年

Answers:



0

成对扩展Logistic回归,基于ROC的学习,增强和装袋(Bootstrap聚合),基于链接的集群集成(LCE),贝叶斯网络,最近质心分类器,贝叶斯技术,加权粗糙集,k-NN

以及许多处理不平衡的采样方法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.