我必须处理文本分类问题。Web搜寻器搜寻特定域的网页,对于每个网页,我都想找出它是否仅属于一个特定类别。也就是说,如果我将此类称为Positive,则每个已抓取的网页都属于Positive类或Non-Positive类。
我已经有大量关于正面课程的培训网页。但是,如何为非阳性课程创建尽可能具有代表性的训练集呢?我的意思是,我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于正类的任意页面吗?我确定文本分类算法的性能(我更喜欢使用朴素贝叶斯算法)在很大程度上取决于我为非正类选择的网页。
那我该怎么办?有人可以给我个建议吗?非常感谢你!