2
高度不平衡数据集的培训方法
我有一个高度不平衡的测试数据集。正集包含100个案例,而负集包含1500个案例。在训练方面,我有一个更大的候选库:正面训练集有1200个案例,负面训练集有12000个案例。对于这种情况,我有几种选择: 1)在整个训练集中使用加权SVM(P:1200,N:12000) 2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个否定案例。 在确定哪种方法更好方面是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡训练集?