假设我想学习一个预测电子邮件是否为垃圾邮件的分类器。假设只有1%的电子邮件是垃圾邮件。
最简单的方法是学习琐碎的分类器,该分类器说所有电子邮件都不是垃圾邮件。该分类器将为我们提供99%的准确性,但它不会学到任何有趣的东西,并且误报率高达100%。
为了解决这个问题,人们告诉我“降低采样率”,或学习其中50%的示例是垃圾邮件而50%的示例不是垃圾邮件的数据子集。
但是我担心这种方法,因为一旦我们建立了此分类器并开始在真实的电子邮件主体(而不是50/50测试集)上使用它,它可能会预测许多电子邮件在成为垃圾邮件时真的不是。只是因为它过去经常看到比数据集中实际更多的垃圾邮件。
那么我们如何解决这个问题呢?
(“上采样”或多次重复正面训练示例,因此50%的数据是正面训练示例,似乎也遇到类似的问题。)