17 我使用Libsvm训练数据并预测语义分析问题的分类。但是由于语义分析涉及n维问题,因此在大规模数据上存在性能问题。 去年,Liblinear发布了,它可以解决性能瓶颈。但这会占用太多内存。是的MapReduce解决大数据的语义分析问题的唯一途径?还是有其他方法可以改善Liblinear上的内存瓶颈? machine-learning bigdata libsvm — 海雀GDI source
11 请注意,有一个早期版本的LIBLINEAR移植到Apache Spark。有关某些早期详细信息,请参见邮件列表注释;以及项目站点。 — 肖恩·欧文(Sean Owen) source 感谢您的回答。看起来与SVM不同。我会调查一下。:) — Puffin GDI 2014年 4 提醒您,我们不鼓励将网站外的答案链接起来,因为链接很容易断开,导致原本有用的社区资源反而变成了死胡同。最好将答案直接放在您的帖子中。 — 2014年 1 同意这一点。在这一点上,它几乎不仅仅存在那个链接。我将添加到基础项目的链接。 — 肖恩·欧文
10 您可以查看vowpal wabbit。它在大规模学习中非常受欢迎,并且包含并行规定。 从他们的网站: 大众汽车是机器学习速度的精髓,能够轻松地从特性数据集中学习。通过并行学习,当进行线性学习时,它可以超过任何单个机器网络接口的吞吐量,这是学习算法中的第一个。 — 马克·克莱森 source 1 开源和一些维基。看起来不错。感谢您的建议。:) — Puffin GDI 2014年