我应该选择“平衡”数据集还是“代表性”数据集?


48

我的“机器学习”任务是将良性Internet流量与恶意流量分开。在现实世界中,大多数(例如90%或更多)的Internet流量都是良性的。因此,我觉得我也应该选择类似的数据设置来训练我的模型。但是我碰到了一份或两篇研究论文(在我的工作领域),他们使用“类平衡”数据方法来训练模型,这意味着良性和恶意流量实例的数量相等。

通常,如果我正在构建机器学习模型,我应该选择一个代表现实世界问题的数据集,还是一个更适合于构建模型的平衡数据集(因为某些分类器在类不平衡方面表现不佳,或者由于其他原因(我不知道)?

有人可以揭示更多的光线优点缺点都的选择,以及如何决定去哪个选哪个?

Answers:


38

我会说答案取决于您的用例。根据我的经验:

  • 如果您要建立一个代表性的模型(描述数据而不是预测模型),那么我建议您使用代表性的数据样本。
  • 如果您要建立一种预测模型,尤其是一种通过测量AUC或等级顺序表现良好并计划使用基本ML框架(即决策树,SVM,朴素贝叶斯等)的模型,那么我建议您使用构架平衡的数据集。关于阶级失衡的许多文献发现,随机欠采样(将多数阶级降采样到少数阶级的规模)可以推动绩效提升。
  • 如果您正在构建预测模型,但使用的是更高级的框架(例如,通过包装器或对与类相当的样本进行装袋的框架的修改来确定采样参数的方法),那么我建议您再次输入具有代表性的样本并让该算法负责平衡数据以进行训练。

2
如果您要建立一个有代表性的模型-一个描述数据而不是一定要预测的模型……是谁建立了一个没有先例的模型?没到你那里...
pnp

8
无监督学习就是您构建不一定适合预测的模型的示例。在某些情况下,您可能需要浏览或汇总数据。
DSea 2014年

1
我想说,平衡样本更安全,但也可以收集抽样权重,以便以后可以根据需要重新加权数据以具有代表性。@pnp许多社会科学家建立了非预测模型,例如用于证实理论的模型。
shadowtalker 2014年

平衡模型与使用加权观测模拟平衡模型的代表性模型相比如何?
JenSCDC 2014年

1
AUC不受类别不平衡的影响,它是您的模型将随机选择的阳性类别排名高于随机选择的负面类别的可能性。我出于一般目的完全不同意您的建议。如果您有代表性样本,例如简单的随机样本,则应将其保留为代表性样本。
马修·德鲁里

8

我认为这始终取决于情况。使用代表性数据集并不总是解决方案。假设您的训练集有1000个负面样本和20个正面样本。如果不对分类器进行任何修改,您的算法将倾向于将所有新示例分类为否定。在某些情况下,这是可以的,但是在许多情况下,缺少正例的代价很高,因此您必须找到解决方案。

在这种情况下,您可以使用成本敏感的机器学习算法。例如,在医学诊断数据分析中。

总结:分类错误的代价不一样!


7

总有一种解决方案可以尝试这两种方法,并保持最大化预期性能的方法。

在您的情况下,我想您希望以一些误报为代价将误报率降至最低,因此您希望使分类器偏向于强否定先验,并通过减少训练集中的否定示例数量来解决不平衡问题。

然后,在完整,不平衡的数据集上计算精度/召回率,灵敏度/特异性或任何适合您的条件,以确保在基于简化数据构建模型时,您没有忽略真实数据中存在的重要模式。


4

将操作和培训方案分开。

操作方案是衡量您的分类器的方案。这是您应该表现良好的地方。使用应具有代​​表此方案的数据集。

培训方案是您要做的一切,以便建立一个可以在操作方案中良好运行的分类器。

很多时候,两种情况下的数据集具有相同的性质,因此无需区分它们。例如,您有一些在线商店,因此您可以用来培训过去的使用情况,以便在将来的使用中表现良好。但是,在训练时,您可以使用与表示操作方案不同的数据集。实际上,如果您睡着了,梦a以求的分类器,请在您的操作场景中对其进行验证(此步骤应在唤醒后完成),您的表现与采用常规机器学习路径后一样好。

当数据集不平衡时,操作场景和训练场景之间的区别变得很重要。大多数算法在这样的数据集上效果不佳。

因此,不要犹豫使用两个数据集-您可以使用平衡的数据集进行训练。完成后,验证操作数据集的分类器。


3

我认为有两个单独的问题需要考虑:训练时间和预测准确性。

举一个简单的例子:考虑您有两个类,它们具有多元正态分布。基本上,您需要估计各自的类别均值和类别协方差。现在,您关心的第一件事是您对类均值之差的估计:但是,您的表现受到最差的估计均值的准确性的限制:将一个均值精确到小数点后100位并没有多大好处-如果另一个均值仅估计到小数点后1位。因此,使用所有数据会浪费计算资源-相反,您可以对更常见的类进行欠采样并适当地对这些类进行加权。(然后可以使用这些计算资源来探索不同的输入变量等)

现在,第二个问题是预测准确性:不同的算法使用不同的错误度量标准,这些度量标准可能会也可能不会符合您自己的目标。例如,逻辑回归将惩罚总体概率误差,因此,如果您的大多数数据来自一个类别,则它将倾向于尝试提高该类别的准确概率估计(例如,概率为90%对95%),而不是尝试识别难得的一课。在那种情况下,您肯定想尝试重新加权以强调稀有类别(然后调整估计值(通过调整偏差项)以重新调整概率估计值)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.