学习如何实现集成方法的资源

13

我从理论上了解了它们的工作方式（但有一定的了解），但不确定如何实际使用集成方法（例如投票，加权混合等）。

有什么好的资源可以实现集成方法？
是否有关于Python实现的特殊资源？

编辑：

为了根据讨论的讨论清理一些内容，我不是在寻找诸如randomForest等的集成算法。而是，我想知道如何组合不同算法的不同分类。

例如，假设某人使用逻辑回归，SVM和其他一些方法来预测某个观测值的类别。根据这些预测来获取班级的最佳估计的最佳方法是什么？

machine-learning python ensemble

— 用户名
source

12

一个不错的起点是概述整体学习。特别是，您将需要考虑加强和套袋。Netflix奖中“合奏团”团队使用的另一种方法称为“融合”或特征叠加。

然后，只需找到一些实现这些功能并从那里开始工作的库。快速搜索一下scikit和orange，这两个都应该装袋并增强（它们都是Python）。

如果不只是使用集成方法，您还想学习一些理论，那么我认为本文是一个很好的起点（遵循您感兴趣的部分的参考文献）。

干杯。

— 笨拙的乔·皮特
source

（+1）woa，这里有很多参考文献：O！

— steffen 2012年

谢谢。只是想就我所了解的少数几个主题之一做出贡献。

— 笨拙的乔·皮特2012年

4

Seni和Elder，“数据挖掘中的集成方法：通过组合预测提高准确性”，是实用集成理论和实现的绝佳参考，但随附的代码基于R。

S.Marsland的《机器学习：算法的观点》（Machine Learning：A Algorithmistic Perspective），S.Marsland-基于Python的优秀实用文本，但没有像第一个参考文献那样致力于纯整体概念。

— 拍
source

2

笨拙的乔·皮特（Joe Pete）的回答很完美，但是由于您提到了Python实现，所以我想提到来自伯南布哥联邦大学（Universidade Federal de Pernambuco）的brew项目。

https://github.com/viisar/brew

from brew.base import Ensemble
from brew.base import EnsembleClassifier
from brew.combination import import Combiner

# create your Ensemble
clfs = your_list_of_classifiers # [clf1, clf2]
ens = Ensemble(classifiers = clfs)

# create your Combiner
# the rules can be 'majority_vote', 'max', 'min', 'mean' or 'median'
comb = Combiner(rule='majority_vote')

# now create your ensemble classifier
ensemble_clf = EnsembleClassifier(ensemble=ens, combiner=comb)
ensemble_clf.predict(X)

此时，它们具有合奏生成，组合，修剪和动态选择。

局限性：仅分类；在当前的公共版本中不能堆叠；没有太多的文档。

— 戴维德·奥利维拉（Dayvid Oliveira）
source

0

索尔福德系统（Salford Systems）有一个名为Random Forests的软件包，该软件包可用于分类和回归树集成。我没有提供任何免费的R包。我想他们有一个用户手册来解释其实现。以此类推，您可能会想出如何针对其他合奏方法执行此操作。

— 迈克尔·R·切尼克
source

2

有很多很棒的R包用于树的合奏：例如randomForest（经典算法），party :: cforest（使用条件推理树的随机森林），gbm（树的梯度增强）等。我将OP视为想要实现分类器/回归不可知的集成。当然，最简单的过程是平均预测。

— B_Miner 2012年

@B_Miner很高兴知道R中有可用的实现。也许有人可以向我解释为什么需要使用Python的特定实现（请原谅我对R的无知）。我阅读了OP，想知道描述如何实现集成方法的资源。我所知道的Salford软件包可能包含一些文档。

— Michael R. Chernick

据我所知，虽然基于Freund和Schapire论文，纸质提升工作总体上是最好的，但使用树分类器已经取得了最佳效果。

— Michael R. Chernick

通过对概率进行简单的平均，我个人可以获得非常好的结果-但是我的领域比选择类标签更关注概率。

— B_Miner

@MichaelChernick如果你正在做的真的很刺激的预测工作（如...一个Kaggle竞争），你不会挑要么提高或随机森林。您将希望聚合尽可能多的模型，这些模型将为您提供帮助（通常不止一个）。因此，在这种情况下，即使随机森林比其他任何方法都更加出色，其他合奏方法也将变得重要。

— 笨拙的乔·皮特2012年

0

我发现本教程非常有帮助。它并不能回答所有问题，但我认为这是讨论的一个很好的开始：http : //vikparuchuri.com/blog/intro-to-ensemble-learning-in-r/

— 斯图
source

0

Scikit-learn集成指南提供了装袋和增强元分类器和回归器的功能。另外，mlxtend库提供了堆叠元分类器和回归器的实现。

— 瓦迪姆·斯莫里亚科夫
source