评估随机森林:OOB与CV


13

当我们例如使用AUC评估随机森林的质量时,是否更适合在“外出样品”或交叉验证的保留集内计算这些数量?

我听说在OOB Samples上计算得出的结果更为悲观,但我不知道为什么。

Answers:


12

注意: 虽然我觉得我的答案可能是正确的,但由于我仅在阅读了大约30至60分钟的问题后才思考此问题,因此我对此感到怀疑。因此,您最好对此保持怀疑并仔细检查,不要被我可能过于自信的写作风格所迷惑(我使用大词和精美的希腊符号并不表示我是对的)。

摘要

这只是一个总结。下文2节中提到了所有详细信息。§1§2

让我们假设分类的情况(也可以扩展到回归,但是为了简洁起见,省略)。本质上,我们的目标是估计树木森林的误差。袋外误差和k倍交叉验证都试图告诉我们以下可能性:

  • 森林给出了正确的分类(k折交叉验证以这种方式看待它)。

与以下可能性相同:

  • 林木的多数票是正确的票(OOBE这样看)。

两者是相同的。唯一的区别是k倍交叉验证和OOBE假定学习样本的大小不同。例如:

  • 在10倍交叉验证中,学习集为90%,而测试集为10%。
  • 但是,在OOBE中,如果每个袋子都有样本,那么n =整个样本集中的样本总数,则这意味着学习集实际上约为66%(三分之二),而测试集约为33%(三分之一)。nn=

因此,在我看来,OOBE是对森林误差进行悲观估计的唯一原因仅是因为与通常使用k倍交叉验证(通常为10倍交叉验证)相比,它通常所训练的样本数量较少。

因此,我还认为2倍交叉验证将比OOBE更悲观地估计森林错误,而3倍交叉验证则与OOBE大致相同。

1.了解袋外错误

1.1关于装袋的普遍看法

nXnn=|X|Xn

1.2。套袋的另一种观点

现在,让我们重新描述一下装袋,以期找到一个希望更容易处理的平等描述。

tXtXXtn

tXt XtXt,1,Xt,2,,Xt,rXt

|Xt|+i=1r|Xt,i|=n

C={Xt,Xt,1,,Xt,r}nCiCa1pnia[p]Ci

naXt§2a

1.3。简化装袋

taXt

ntXtta

Xt

我认为对于给定的划分,熵不会系统地发生变化的原因是,根据经验测得的样本在某些子集中具有特定标签的概率(应用决策划分后)也不会发生变化。

Xtd

1.4测量袋外误差

OttOt=XXtt

total x in Ot correctly classified by t|Ot|
nt
t=1nttotal x in Ot correctly classified by tt=1nt|Ot|

2.了解k折交叉验证

XnkK={K1,K2,,Knk}K1K2Knk=XKi,KjKKiKj=

KtK{Kt}

fK{Kt}

f

t=1nktotal x in Kt correctly classified by ft=1nk|Kt|

f

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.