半监督学习,主动学习和深度学习进行分类


19

最终编辑,所有资源已更新:

对于一个项目,我正在应用机器学习算法进行分类。

挑战: 有限的标记数据和更多的未标记数据。

目标:

  1. 应用半监督分类
  2. 应用某种程度上的半监督式标签过程(称为主动学习)

我从研究论文中发现了很多信息,例如应用EM,Transductive SVM或S3VM(半监督SVM),或者以某种方式使用LDA等。关于该主题的书籍也很少。

问题: 实现方式和实际来源在哪里?


最终更新(基于mpiktas,bayer和Dikran Marsupial提供的帮助)

半监督学习:

主动学习:

  • 二元论:一种主动学习的实现,带有文本分类源代码
  • 网页很好地概述了主动学习。
  • 实验设计研讨会:此处

深度学习:


有一个R包RTextTools。如果我没记错的话,它会实现您提到的几种方法。
mpiktas,2011年

嗨mpiktas,谢谢您的帮助。这是一个有趣的工具包。但是,它似乎只涉及监督学习,因为我读到“ TextTools是一个免费的开源机器学习软件包,用于自动文本分类,使新手和高级用户都可以轻松地开始监督学习。该软件包包括集成分类的九种算法(svm,slda,boosting,bagging,随机森林,glmnet,决策树,神经网络,最大熵)”
Flake

好的,这是另一种尝试:Weka。作者写了一本书,其目录中提到了半监督学习。我衷心希望本章不要以“ ...不幸的是,Weka中没有实现这些算法” :)
mpiktas 2011年

德拉特,我买的是旧版书!非常感谢您指出此来源!
片状

Answers:


8

似乎深度学习对您来说可能非常有趣。这是深度连接主义模型的最新领域,该模型以无监督的方式进行预训练,然后在监督下进行微调。微调所需的样本比预训练少得多。

为了弄湿你的舌头,我建议[欣曼·希曼提·哈希· 萨拉赫特迪诺夫(Semantig Hashing Salakhutdinov,Hinton。看看为路透社语料库的不同文档找到的代码:(无监督!)

在此处输入图片说明

如果您需要实现一些代码,请查看deeplearning.net。不过,我不认为有开箱即用的解决方案。


这对我来说是非常有趣和新的信息。当然,开箱即用的实现会更好,但这确实有助于我了解更接近我想要的东西。谢谢。
片状

5

Isabelle Guyon(及其同事)前不久组织了一次主动学习的挑战,会议记录在此处发布(开放获取)。这具有实用性强的优势,您可以在无偏见(通俗地说)的协议下直接比较不同方法的性能(模式的随机选择令人难以克服)。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.