5
我应该选择“平衡”数据集还是“代表性”数据集?
我的“机器学习”任务是将良性Internet流量与恶意流量分开。在现实世界中,大多数(例如90%或更多)的Internet流量都是良性的。因此,我觉得我也应该选择类似的数据设置来训练我的模型。但是我碰到了一份或两篇研究论文(在我的工作领域),他们使用“类平衡”数据方法来训练模型,这意味着良性和恶意流量实例的数量相等。 通常,如果我正在构建机器学习模型,我应该选择一个代表现实世界问题的数据集,还是一个更适合于构建模型的平衡数据集(因为某些分类器在类不平衡方面表现不佳,或者由于其他原因(我不知道)? 有人可以揭示更多的光线优点和缺点都的选择,以及如何决定去哪个选哪个?