博客文章中已经解释了直观推理:
如果我们的目标是预测,这将导致一定的偏差。更糟糕的是,这将是永久偏差,因为随着样本量的增加,我们将无法获得一致的估计。
因此,可以说,(人为)平衡数据的问题比不平衡情况更严重。
平衡的数据可以很好地进行分类,但是您显然会松散有关出现频率的信息,这将影响准确性指标本身以及生产性能。
假设您正在识别英语字母(26个字母)中的手写字母。过度平衡每个字母的外观将使每个字母被分类的概率(正确与否)大约为1/26,因此分类器将忘记原始样本中字母的实际分布。而且它的确定时分类能够概括和识别精度高的每一个字母。
但是,如果准确性和最重要的泛化不是“那么高”(我无法给您定义-您可以将其视为“最坏的情况”),则错误分类的点很可能会平均分布在所有字母中, 就像是:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
而不是没有平衡(假定“ A”和“ C”在文本中出现的可能性更高)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
因此,频繁发生的案件将减少错误分类。是否好取决于您的任务。对于自然文本识别,人们可能会认为频率较高的字母更可行,因为它们将保留原始文本的语义,从而使识别任务更接近于预测(语义代表趋势)。但是,如果您试图识别ECDSA键的屏幕快照(熵更大->预测更少),则保持数据不平衡将无济于事。因此,这再次取决于。
最重要的区别是准确性估算本身存在偏差(如在平衡字母示例中所见),因此您不知道模型的行为如何受到最稀有或最频繁的点的影响。
PS您可以随时跟踪不平衡的分类与性能的精密/召回指标第一,并决定是否需要添加平衡与否。
编辑:在估计理论上,准确度还在于样本均值和总体均值之间的差异。例如,您可能知道(可以说)英文字母)的实际分布,但是您的样本(训练集)不足以正确估计它(使用)。因此,为了补偿 ,有时建议根据总体本身或较大样本中已知的参数来重新平衡类p (X一世| θ)p (X一世| θ^)θ我 - θ 我θ^一世- θ一世(因此是更好的估算器)。但是,实际上,由于在每个步骤上都有可能获取有偏差的数据(例如,从技术文献,小说和整个图书馆中收集的英文字母)的风险,因此不能保证“较大样本”的分布均匀,因此平衡可能仍然有害。
此答案还应阐明平衡的适用性标准:
阶级不平衡的问题是由于没有足够的属于少数群体的模式,而不是由正负模式本身的比例引起的。通常,如果您有足够的数据,则不会出现“类不平衡问题”
结论是,如果训练集足够大,则人工平衡很少有用。缺少较大的,分布均匀的样本的统计数据也表明不需要进行人工平衡(尤其是用于预测),否则估计器的质量与“满足恐龙的可能性”一样好:
在街上遇到恐龙的几率是多少?
1/2您遇到了恐龙,或者您没有遇到过恐龙