为了简单起见,假设我正在研究垃圾邮件/非垃圾邮件的经典示例。
我有一组20000封电子邮件。在这些邮件中,我知道2000是垃圾邮件,但没有任何非垃圾邮件的例子。我想预测其余18000个垃圾邮件是否为垃圾邮件。理想情况下,我要寻找的结果是电子邮件为垃圾邮件的概率(或p值)。
在这种情况下,我可以使用哪种算法做出明智的预测?
目前,我正在考虑一种基于距离的方法,该方法可以告诉我电子邮件与已知垃圾邮件的相似程度。我有什么选择?
更笼统地说,我可以使用监督学习方法吗?或者我是否必须在训练中包含负面案例才能做到这一点?我是否仅限于无监督学习方法?那么半监督方法呢?