当稀有性是由于大量反事实事件而导致的“稀有”事件的监督学习


13

假设您观察到市场中买卖双方之间的“匹配”。您还可以观察买家和卖家的特征,以用于预测未来的比赛并向市场双方提出建议。

为简单起见,假设有N个买家和N个卖家,并且每个人都找到一个匹配项。有N个匹配项和(N-1)(N-1)个不匹配项。包罗万象的训练数据集具有N +(N-1)*(N-1)个观测值,这可能会过大。从(N-1)(N-1)个不匹配项中随机采样并在减少的数据上训练算法似乎更为有效。我的问题是:

(1)从不匹配项中采样以构建训练数据集是否是解决此问题的合理方法?

(2)如果(1)为真,是否有严格的方法来确定要包含的(N-1)(N-1)块中有多少?

Answers:


11

如果我理解正确,那么您会遇到两类分类问题,在这种情况下,阳性分类(匹配)很少见。许多分类器都在为此类分类失衡而苦苦挣扎,通常的做法是对多数分类进行子采样以获得更好的性能,因此第一个问题的答案是“是”。但是,如果您对子样本进行过多抽样,最终将得到一个分类器,该分类器会过度预测少数积极类别,因此,最好的选择是选择子抽样比率以最大化性能,也许是通过最小化交叉抽样来实现。验证错误,其中未对测试数据进行二次采样,因此可以很好地表明操作性能。

如果您有一个概率分类器,它可以估计班级成员的概率,则可以更好地进行分类,并对输出进行后处理,以补偿训练集中和操作中班级频率之间的差异。我怀疑对于某些分类器,最佳方法是通过优化交叉验证误差来优化子采样率和输出校正。

对于某些分类器(例如SVM),您可以给正负模式赋予不同的权重,而不是子采样。我更喜欢这种方式而不是二次抽样,因为这意味着由于使用了特定的二次抽样,结果不会有差异。在无法做到这一点的地方,请使用自举法进行袋装分类,在每次迭代中使用多数类的不同子样本。

我要说的另一件事是,通常在存在较大的类不平衡的情况下,错误的负错误和错误的正错误并不同样糟糕,将其构建到分类器设计中是个好主意(可以通过sub -属于每个类别的抽样或加权模式)。


3
(+1),但我认为必须区分排名目标(AUC)和将两类目标分开(Accuracy)。我想,在前一种情况下,考虑到像朴素贝叶斯这样的概率分类器,失衡的作用较小。还是在这种情况下也应该担心?另一个问题:“对输出进行后处理”是什么意思?将分数转换为实际概率?
steffen 2011年

@Steffen我的直觉是,班级失衡问题并不是排名问题,但它不会完全消失(我正在就此问题进行论文研究,因此值得解决)。通过后处理,我的意思是将输出乘以操作和训练集的班级频率之比,然后重新归一化,以便所有可能结果的概率加总为1。但是在实践中,实际的最佳比例因子可能会有所不同-因此可以使用XVAL进行优化(但仍需重新归一化)。
Dikran有袋动物2011年

1

关于(1)。如果要获得有意义的结果,则需要保留正面和负面的观察结果。
(2)如果您没有先验数据,那么没有比均匀分布更明智的子采样方法了。


谢谢Ugo-同意,培训数据中肯定需要同时存在和不存在。问题是需要多少(N-1)(N-1)个不匹配项。对于第(2)部分,我肯定会在所有观察结果中采样均等权重。
约翰·霍顿

好吧,如果您的数据没有先验知识,那么就没有合理的方法对数据进行采样。因此,您必须进行统一采样,在这种情况下,采样次数越多越好。但是,您可以估计抽样带来的误差,但是在此我们缺少信息来帮助您。
Ugo

在我看来,该错误将取决于所使用的分类器的类型。无论如何,您始终可以尝试以不同的采样率进行预测,并在您认为引入的误差令人满意的情况下确定阈值。
Ugo
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.