我面临的情况是数据集中正例和负例的数量不平衡。
我的问题是,是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样,以便在数据集中实施某种平衡。
例子:
- 如果正面示例的数量是1,000,负面示例的数量是10,000,我应该在整个数据集中训练分类器,还是应该对负面示例进行二次抽样?
- 1,000个肯定示例和100,000个否定示例的相同问题。
- 10,000个正数和1,000个负数的相同问题。
- 等等...
我面临的情况是数据集中正例和负例的数量不平衡。
我的问题是,是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样,以便在数据集中实施某种平衡。
例子:
Answers:
我认为子采样(下采样)是一种在基础级别上控制类不平衡的流行方法,这意味着它可以解决问题的根源。因此,对于您的所有示例,每次都可以从全班大多数学生中随机选择1,000名。您甚至可以制作10个模型(1,000个多数的10倍与1,000个少数的10倍),因此您将使用整个数据集。您可以使用此方法,但是除非您尝试使用一些整体方法,否则您还是会丢掉9,000个样本。易于修复,但是很难根据您的数据获得最佳模型。
您需要为班级失衡所控制的程度很大程度上取决于您的目标。如果您关心纯分类,那么对于大多数技术而言,不平衡会影响50%的可能性,因此,我将考虑降低采样率。如果您仅关心分类的顺序(通常希望阳性比阴性要高),并且使用诸如AUC之类的度量,则类别不平衡只会偏向您的概率,但是相对顺序对于大多数技术来说应该是相当稳定的。
Logistic回归对于类不平衡非常有用,因为只要您有> 500个少数类,参数的估计就足够准确,并且唯一的影响就是对截距的影响,可以针对这种情况进行校正想。Logistic回归对概率进行建模,而不仅仅是对类别进行建模,因此您可以进行更多手动调整来满足您的需求。
许多分类技术还具有类权重参数,可以帮助您更专注于少数群体。这将对真正的少数派类别的未成年人分类造成不利影响,因此您的整体准确性会受到影响,但是您将开始看到更多正确分类的少数派类别。
数据不平衡问题 从理论上讲,它仅与数字有关。即使差异是1个样本,也是数据不平衡
实际上,这是一个数据失衡问题,它由以下三点控制:1.您拥有的样本数量和分布2.同一类别内的差异3.不同类别之间的相似性
最后两点改变了我们如何看待我们的问题。
为了解释这一点,让我举一个例子:A类= 100个样本B类= 10000
如果B类内的变化很小,则向下采样就足够了,就不会出现数据不平衡的问题
如果b类内的变化很大,则下采样可能会导致信息丢失,并且应用下采样很危险
还有一点,拥有大量样本(主要针对少数群体)将缓解数据不平衡问题,并使处理起来更容易
例如10:100。1000:10000