我有一个高度不平衡的测试数据集。正集包含100个案例,而负集包含1500个案例。在训练方面,我有一个更大的候选库:正面训练集有1200个案例,负面训练集有12000个案例。对于这种情况,我有几种选择:
1)在整个训练集中使用加权SVM(P:1200,N:12000)
2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个否定案例。
在确定哪种方法更好方面是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡训练集?
1
请检查以下问题:具有“罕见”事件的监督学习以及使用SVM处理不平衡多类数据集的最佳方法。这有帮助吗?坦白说,您的问题听起来很相似;)。
—
steffen 2012年