3
仅使用正数和未标记的数据构建二进制分类器
我有2个数据集,一个具有要检测的阳性实例,另一个具有未标记的实例。我可以使用哪些方法? 作为示例,假设我们想了解基于一些结构化电子邮件特征的检测垃圾邮件。我们有10000个垃圾邮件的数据集,还有一个100000电子邮件的数据集,而我们不知道它们是否为垃圾邮件。 我们如何解决这个问题(不手动标记任何未标记的数据)? 如果我们有关于垃圾邮件在未标记数据中所占比例的其他信息,该怎么办(即,如果我们估计100000未标记电子邮件中有20-40%是垃圾邮件,该怎么办)?