决策树空间与随机森林的MCMC采样


11

一个随机森林是一家集决策树通过随机选择只是某些功能建立与(有时装袋训练数据),每棵树形成。显然,他们学习并概括得很好。是否有人对决策树空间进行了MCMC采样或将它们与随机森林进行了比较?我知道运行MCMC并保存所有采样树可能在计算上更加昂贵,但是我对这个模型的理论特性感兴趣,而不是计算成本。我的意思是这样的:

  1. 构造一个随机决策树(它可能会表现得很差)
  2. 用类似计算树的可能性,或者添加一个项。PŤ[RËË|d一种Ť一种Pd一种Ť一种|Ť[RËËPp[R一世Ø[RŤ[RËË
  3. 选择一个随机步骤来更改树,然后根据似然度。PŤ[RËË|d一种Ť一种
  4. 每N步,保存当前树的副本
  5. 返回3进行大的N * M次
  6. 使用M个保存的树的集合进行预测

这会给随机森林一个类似的表现吗?请注意,与随机森林不同,我们在任何步骤都不会丢弃好数据或功能。


2
我不确定这是否正是您所概述的过程,但是这里有BART。这是PDF
joran

Answers:



4

不幸的是,Chipman等。在他们的贝叶斯CART方法中,仅提取最可能的树。他们从未尝试过对树木进行平均,并将性能与随机森林和多余树木进行比较。

我刚刚阅读了Chipman的BART论文。如果我理解正确,那是对m个树的集合中K个样本的贝叶斯平均。它在很多方面都很有趣,而且看起来确实非常不错。当m ='1'时,它是来自后验的1个树的K个样本的简单贝叶斯平均。但是,在该特定方面没有做太多测试。而且我仍然想知道随机森林或多余树与真正的贝叶斯模型相比如何。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.