Answers:
如果我理解正确,那么您会遇到两类分类问题,在这种情况下,阳性分类(匹配)很少见。许多分类器都在为此类分类失衡而苦苦挣扎,通常的做法是对多数分类进行子采样以获得更好的性能,因此第一个问题的答案是“是”。但是,如果您对子样本进行过多抽样,最终将得到一个分类器,该分类器会过度预测少数积极类别,因此,最好的选择是选择子抽样比率以最大化性能,也许是通过最小化交叉抽样来实现。验证错误,其中未对测试数据进行二次采样,因此可以很好地表明操作性能。
如果您有一个概率分类器,它可以估计班级成员的概率,则可以更好地进行分类,并对输出进行后处理,以补偿训练集中和操作中班级频率之间的差异。我怀疑对于某些分类器,最佳方法是通过优化交叉验证误差来优化子采样率和输出校正。
对于某些分类器(例如SVM),您可以给正负模式赋予不同的权重,而不是子采样。我更喜欢这种方式而不是二次抽样,因为这意味着由于使用了特定的二次抽样,结果不会有差异。在无法做到这一点的地方,请使用自举法进行袋装分类,在每次迭代中使用多数类的不同子样本。
我要说的另一件事是,通常在存在较大的类不平衡的情况下,错误的负错误和错误的正错误并不同样糟糕,将其构建到分类器设计中是个好主意(可以通过sub -属于每个类别的抽样或加权模式)。
关于(1)。如果要获得有意义的结果,则需要保留正面和负面的观察结果。
(2)如果您没有先验数据,那么没有比均匀分布更明智的子采样方法了。