我们什么时候应该认为数据集不平衡？

10

我面临的情况是数据集中正例和负例的数量不平衡。

我的问题是，是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样，以便在数据集中实施某种平衡。

例子：

如果正面示例的数量是1,000，负面示例的数量是10,000，我应该在整个数据集中训练分类器，还是应该对负面示例进行二次抽样？
1,000个肯定示例和100,000个否定示例的相同问题。
10,000个正数和1,000个负数的相同问题。
等等...

— 拉米
source

数据集本身并没有完全分开，没有任何问题。您正在使用哪种建模技术？如果该技术依赖于“平衡”数据，则您可能使用了错误的技术。

— D3C34C34D

1

Nina Zumel在这里研究了平衡对不同估计量的影响，这也可能对其他人有帮助。她研究了随机森林，SVM和logit估计。

— CFM 2016年

9

我认为子采样（下采样）是一种在基础级别上控制类不平衡的流行方法，这意味着它可以解决问题的根源。因此，对于您的所有示例，每次都可以从全班大多数学生中随机选择1,000名。您甚至可以制作10个模型（1,000个多数的10倍与1,000个少数的10倍），因此您将使用整个数据集。您可以使用此方法，但是除非您尝试使用一些整体方法，否则您还是会丢掉9,000个样本。易于修复，但是很难根据您的数据获得最佳模型。

您需要为班级失衡所控制的程度很大程度上取决于您的目标。如果您关心纯分类，那么对于大多数技术而言，不平衡会影响50％的可能性，因此，我将考虑降低采样率。如果您仅关心分类的顺序（通常希望阳性比阴性要高），并且使用诸如AUC之类的度量，则类别不平衡只会偏向您的概率，但是相对顺序对于大多数技术来说应该是相当稳定的。

Logistic回归对于类不平衡非常有用，因为只要您有> 500个少数类，参数的估计就足够准确，并且唯一的影响就是对截距的影响，可以针对这种情况进行校正想。Logistic回归对概率进行建模，而不仅仅是对类别进行建模，因此您可以进行更多手动调整来满足您的需求。

许多分类技术还具有类权重参数，可以帮助您更专注于少数群体。这将对真正的少数派类别的未成年人分类造成不利影响，因此您的整体准确性会受到影响，但是您将开始看到更多正确分类的少数派类别。

— TBS天秤
source

您能否扩大“只要您的少数民族人数超过500”的指导？您是从哪里获得500的？是根据您的经验吗？我期待您回答的百分比。

— Jas

2

不正式地定义不平衡，但是通常不平衡比例为1到10，足以从使用平衡技术中受益。

失衡有两种，相对失衡和绝对失衡。相对而言，多数和少数族裔之间的比例不平衡。绝对地，您也有少量的少数样本。不平衡率越高，您也越有可能达到绝对不平衡。

请注意，直接进行二次采样不是应对不平衡数据集的最佳方法。那是因为您应该构建一个分类器，该分类器将在原始数据集中表现良好。有关在不平衡数据集上构建分类器的技术，请参见此处。有关评估分类器的信息，请参见此处。

— 达尔
source

2

数据不平衡问题从理论上讲，它仅与数字有关。即使差异是1个样本，也是数据不平衡

实际上，这是一个数据失衡问题，它由以下三点控制：1.您拥有的样本数量和分布2.同一类别内的差异3.不同类别之间的相似性

最后两点改变了我们如何看待我们的问题。

为了解释这一点，让我举一个例子：A类= 100个样本B类= 10000

如果B类内的变化很小，则向下采样就足够了，就不会出现数据不平衡的问题

如果b类内的变化很大，则下采样可能会导致信息丢失，并且应用下采样很危险

还有一点，拥有大量样本（主要针对少数群体）将缓解数据不平衡问题，并使处理起来更容易

例如10：100。1000：10000

— 巴沙尔·哈达德（Bashar Haddad）
source