最终编辑,所有资源已更新:
对于一个项目,我正在应用机器学习算法进行分类。
挑战: 有限的标记数据和更多的未标记数据。
目标:
- 应用半监督分类
- 应用某种程度上的半监督式标签过程(称为主动学习)
我从研究论文中发现了很多信息,例如应用EM,Transductive SVM或S3VM(半监督SVM),或者以某种方式使用LDA等。关于该主题的书籍也很少。
问题: 实现方式和实际来源在哪里?
最终更新(基于mpiktas,bayer和Dikran Marsupial提供的帮助)
半监督学习:
- TSVM:位于SVMligth和SVMlin中。
- EM朴素贝叶斯(Python)
- EM在LinePipe项目中
主动学习:
深度学习:
有一个R包RTextTools。如果我没记错的话,它会实现您提到的几种方法。
—
mpiktas,2011年
嗨mpiktas,谢谢您的帮助。这是一个有趣的工具包。但是,它似乎只涉及监督学习,因为我读到“ TextTools是一个免费的开源机器学习软件包,用于自动文本分类,使新手和高级用户都可以轻松地开始监督学习。该软件包包括集成分类的九种算法(svm,slda,boosting,bagging,随机森林,glmnet,决策树,神经网络,最大熵)”
—
Flake
好的,这是另一种尝试:Weka。作者写了一本书,其目录中提到了半监督学习。我衷心希望本章不要以“ ...不幸的是,Weka中没有实现这些算法” :)
—
mpiktas 2011年
德拉特,我买的是旧版书!非常感谢您指出此来源!
—
片状