机器学习的“热门算法”是什么?


14

对于开始学习机器学习的人来说,这是一个幼稚的问题。这些天,我正在阅读Marsland的著作《机器学习:算法的观点》。我觉得它作为入门书籍很有用,但是现在我想进入高级算法,那些算法目前效果最好。我最感兴趣的是生物信息学:生物网络的聚类和生物序列中的模式发现,尤其是应用于单核苷酸多态性(SNP)分析。您能为我推荐一些评论或书籍吗?

Answers:


15

自2006年以来,深度学习就得到了广泛的关注。它基本上是一种训练深度神经网络的方法,并且在非常困难的数据集(例如文档聚类或对象识别)上产生了令人印象深刻的结果。有人在谈论第二次神经网络复兴(例如,在Schmidhuber的Google演讲中)。

如果您希望给您留下深刻的印象,请阅读此科学论文 Hinton和Salakhutdinov 用神经网络降低数据的维数。

(该领域目前正在进行大量工作,以至于我所知的即将出版的两本书将对此加以论述:大规模机器学习,Langford等人和机器学习: Kevin Murphy 的概率观点。)

如果您想了解更多信息,请查看主要的深度学习小组在做什么:斯坦福蒙特利尔,最重要的是多伦多#1多伦多#2


8

到目前为止,给出的大多数答案都涉及“监督学习”(即,您在其中具有一部分数据集的标签,可用于训练算法)。这个问题专门提到了聚类,这是一种“无监督”方法(即,事先没有标签)。在这种情况下,我建议您看一下:

  • k均值和核k均值
  • 聚集聚类
  • 非负矩阵分解
  • 潜在狄利克雷分配
  • Dirichlet过程和分层Dirichlet过程

但是实际上,您可能会发现相似度/距离度量比使用的特定算法更重要。

如果您有一些带有标签的数据,那么“半监督学习”方法将变得越来越流行并且功能非常强大。SSL的一个很好的起点是LapSVM(拉普拉斯支持向量机)。


7

这些书可能会有所帮助:

  • Tan Ping-Ning Tan,Michael Steinbach和Vipin Kumar撰写的数据挖掘简介。这是我在大学的数据挖掘课程中推荐的书。我喜欢它的布局和理论方法;
  • 数据挖掘:实用的机器学习工具和技术,作者:Ian H. Witten,Eibe Frank,Mark A. Hall。一本非常有趣的书。本书还涵盖了数据挖掘框架WEKA的许多实现技术;
  • 托马斯·米切尔(Thomas Mitchell)的机器学习。这是一本有点古老的书,但可能会很有用。

然后请记住,您可以在刚刚开始的斯坦福大学参加免费的机器学习课程:www.ml-class.com

对于您的特殊问题,那就是SNP分析,我建议您看看帕多瓦大学的Di Camillo小组


5

这是一篇很棒的文章和书籍,解释了大多数最受欢迎的方法的原理,理论和应用:

数据挖掘中的十大算法

它特别整洁,因为它是该领域民意测验专家选择的“前十名”。

而且,对于一般的基因数据,由于具有许多特征,因此特征选择非常重要。例如,SVM递归特征消除(SVM-RFE)和相关方法非常流行,并且正在基因数据的背景下得到积极开发和应用。


4

助推树和某种形式的svm赢得了很多比赛,但这总是取决于上下文。歧管正则化也处于最前沿。


4

我推荐Hastie,Tibshirani和Friedman撰写的“统计学习的要素”。不要只是阅读它,使用它们描述的某些算法(大多数算法是用R实现的,或者您甚至可以自己实现一些算法),并了解它们的弱点和长处。



3

Rasmussen和Williams(麻省理工学院出版社)的高斯机器学习过程是必须的。高斯过程是机器学习的热门算法之一,现在可以使用期望传播和变分推理算法。这本书写得很好,有一个免费的MATLAB工具箱(很好的工具包),并且可以免费下载该书。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.