学习如何实现集成方法的资源


13

我从理论上了解了它们的工作方式(但有一定的了解),但不确定如何实际使用集成方法(例如投票,加权混合等)。

  • 有什么好的资源可以实现集成方法?
  • 是否有关于Python实现的特殊资源?

编辑:

为了根据讨论的讨论清理一些内容,我不是在寻找诸如randomForest等的集成算法。而是,我想知道如何组合不同算法的不同分类。

例如,假设某人使用逻辑回归,SVM和其他一些方法来预测某个观测值的类别。根据这些预测来获取班级的最佳估计的最佳方法是什么?

Answers:


12

一个不错的起点是概述整体学习。特别是,您将需要考虑加强套袋。Netflix奖中“合奏团”团队使用的另一种方法称为“融合”或特征叠加

然后,只需找到一些实现这些功能并从那里开始工作的库。快速搜索一下scikitorange,这两个都应该装袋并增强(它们都是Python)。

如果不只是使用集成方法,您还想学习一些理论,那么我认为本文是一个很好的起点(遵循您感兴趣的部分的参考文献)。

干杯。


(+1)woa,这里有很多参考文献:O!
steffen 2012年

谢谢。只是想就我所了解的少数几个主题之一做出贡献。
笨拙的乔·皮特2012年

4

Seni和Elder,“数据挖掘中的集成方法:通过组合预测提高准确性”,是实用集成理论和实现的绝佳参考,但随附的代码基于R。

S.Marsland的《机器学习:算法的观点》(Machine Learning:A Algorithmistic Perspective),S.Marsland-基于Python的优秀实用文本,但没有像第一个参考文献那样致力于纯整体概念。


2

笨拙的乔·皮特(Joe Pete)的回答很完美,但是由于您提到了Python实现,所以我想提到来自伯南布哥联邦大学(Universidade Federal de Pernambuco)的brew项目。

https://github.com/viisar/brew

from brew.base import Ensemble
from brew.base import EnsembleClassifier
from brew.combination import import Combiner

# create your Ensemble
clfs = your_list_of_classifiers # [clf1, clf2]
ens = Ensemble(classifiers = clfs)

# create your Combiner
# the rules can be 'majority_vote', 'max', 'min', 'mean' or 'median'
comb = Combiner(rule='majority_vote')

# now create your ensemble classifier
ensemble_clf = EnsembleClassifier(ensemble=ens, combiner=comb)
ensemble_clf.predict(X)

此时,它们具有合奏生成,组合,修剪和动态选择。

局限性:仅分类;在当前的公共版本中不能堆叠;没有太多的文档。


0

索尔福德系统(Salford Systems)有一个名为Random Forests的软件包,该软件包可用于分类和回归树集成。我没有提供任何免费的R包。我想他们有一个用户手册来解释其实现。以此类推,您可能会想出如何针对其他合奏方法执行此操作。


2
有很多很棒的R包用于树的合奏:例如randomForest(经典算法),party :: cforest(使用条件推理树的随机森林),gbm(树的梯度增强)等。我将OP视为想要实现分类器/回归不可知的集成。当然,最简单的过程是平均预测。
B_Miner 2012年

@B_Miner很高兴知道R中有可用的实现。也许有人可以向我解释为什么需要使用Python的特定实现(请原谅我对R的无知)。我阅读了OP,想知道描述如何实现集成方法的资源。我所知道的Salford软件包可能包含一些文档。
Michael R. Chernick

据我所知,虽然基于Freund和Schapire论文,纸质提升工作总体上是最好的,但使用树分类器已经取得了最佳效果。
Michael R. Chernick

通过对概率进行简单的平均,我个人可以获得非常好的结果-但是我的领域比选择类标签更关注概率。
B_Miner

@MichaelChernick如果你正在做的真的很刺激的预测工作(如...一个Kaggle竞争),你不会挑要么提高随机森林。您将希望聚合尽可能多的模型,这些模型将为您提供帮助(通常不止一个)。因此,在这种情况下,即使随机森林比其他任何方法都更加出色,其他合奏方法也将变得重要。
笨拙的乔·皮特2012年


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.