哪些机器学习分类器最可并行化?


10

哪些机器学习分类器最可并行化?如果您遇到困难的分类问题,有限的时间,但是要使用一个不错的计算机局域网,那么您将尝试使用哪些分类器?

从旁看来,我看起来像一些我所知道的标准分类器,但我可能完全错了:

随机森林-高度并行化,只要每台机器都可以保存所有数据(即本身不能分割训练数据,但可以并行化)。

提升-?

支持向量机-不可并行化。

决策树-可以部分分解,但效率不高。


该帖子需要更新。当前,DNN是从并行计算中受益最大的算法。和提升几乎是不可并行的。
TNM 2015年

Answers:


11

人们一直在努力使大多数众所周知的分类器并行化,包括提升[ 论文 ],SVM [ 论文 ],甚至决策树[ 论文 ]。当然,通过承认并行性,您有时会在其他方面有所遗漏,无论是算法的可实现性,样本的复杂性还是其他常见的疑问。

从理论上讲,这个问题很难解决,因为当您谈论学习时,您必须考虑目标函数。例如,我们甚至不知道决策树是PAC可学习的,因此,如果目标(以及方法)是决策树,那么即使不引入额外的方面,我们甚至都无法学习它。问题。通过假设学习条件较弱,支持向量机有余量等来解决这个问题。我认为这些假设会转移到并行情况下,以使您能够进行PAC学习。

但与往常一样,理论和实践的前沿(因而引起关注)之间也存在很大差距。例如,在实践中,并行性是基于核心还是基于集群很重要。VW是专门为在大数据设置中实际使用而开发的一种算法,它开始支持并行性。您可能对NIPS 2010 研讨会上有关实用并行学习的论文感兴趣。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.