我们什么时候应该认为数据集不平衡?


10

我面临的情况是数据集中正例和负例的数量不平衡。

我的问题是,是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样,以便在数据集中实施某种平衡。

例子:

  • 如果正面示例的数量是1,000,负面示例的数量是10,000,我应该在整个数据集中训练分类器,还是应该对负面示例进行二次抽样?
  • 1,000个肯定示例和100,000个否定示例的相同问题。
  • 10,000个正数和1,000个负数的相同问题。
  • 等等...

数据集本身并没有完全分开,没有任何问题。您正在使用哪种建模技术?如果该技术依赖于“平衡”数据,则您可能使用了错误的技术。
D3C34C34D

1
Nina Zumel在这里研究了平衡对不同估计量的影响,这也可能对其他人有帮助。她研究了随机森林,SVM和logit估计。
CFM 2016年

Answers:


9

我认为子采样(下采样)是一种在基础级别上控制类不平衡的流行方法,这意味着它可以解决问题的根源。因此,对于您的所有示例,每次都可以从全班大多数学生中随机选择1,000名。您甚至可以制作10个模型(1,000个多数的10倍与1,000个少数的10倍),因此您将使用整个数据集。您可以使用此方法,但是除非您尝试使用一些整体方法,否则您还是会丢掉9,000个样本。易于修复,但是很难根据您的数据获得最佳模型。

您需要为班级失衡所控制的程度很大程度上取决于您的目标。如果您关心纯分类,那么对于大多数技术而言,不平衡会影响50%的可能性,因此,我将考虑降低采样率。如果您仅关心分类的顺序(通常希望阳性比阴性要高),并且使用诸如AUC之类的度量,则类别不平衡只会偏向您的概率,但是相对顺序对于大多数技术来说应该是相当稳定的。

Logistic回归对于类不平衡非常有用,因为只要您有> 500个少数类,参数的估计就足够准确,并且唯一的影响就是对截距的影响,可以针对这种情况进行校正想。Logistic回归对概率进行建模,而不仅仅是对类别进行建模,因此您可以进行更多手动调整来满足您的需求。

许多分类技术还具有类权重参数,可以帮助您更专注于少数群体。这将对真正的少数派类别的未成年人分类造成不利影响,因此您的整体准确性会受到影响,但是您将开始看到更多正确分类的少数派类别。


您能否扩大“只要您的少数民族人数超过500”的指导?您是从哪里获得500的?是根据您的经验吗?我期待您回答的百分比。
Jas

2

不正式地定义不平衡,但是通常不平衡比例为1到10,足以从使用平衡技术中受益。

失衡有两种,相对失衡和绝对失衡。相对而言,多数和少数族裔之间的比例不平衡。绝对地,您也有少量的少数样本。不平衡率越高,您也越有可能达到绝对不平衡。

请注意,直接进行二次采样不是应对不平衡数据集的最佳方法。那是因为您应该构建一个分类器,该分类器将在原始数据集中表现良好。有关在不平衡数据集上构建分类器的技术,请参见此处。有关评估分类器的信息,请参见此处


2

数据不平衡问题 从理论上讲,它仅与数字有关。即使差异是1个样本,也是数据不平衡

实际上,这是一个数据失衡问题,它由以下三点控制:1.您拥有的样本数量和分布2.同一类别内的差异3.不同类别之间的相似性

最后两点改变了我们如何看待我们的问题。

为了解释这一点,让我举一个例子:A类= 100个样本B类= 10000

如果B类内的变化很小,则向下采样就足够了,就不会出现数据不平衡的问题

如果b类内的变化很大,则下采样可能会导致信息丢失,并且应用下采样很危险

还有一点,拥有大量样本(主要针对少数群体)将缓解数据不平衡问题,并使处理起来更容易

例如10:100。1000:10000

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.