注意: 虽然我觉得我的答案可能是正确的,但由于我仅在阅读了大约30至60分钟的问题后才思考此问题,因此我对此感到怀疑。因此,您最好对此保持怀疑并仔细检查,不要被我可能过于自信的写作风格所迷惑(我使用大词和精美的希腊符号并不表示我是对的)。
摘要
这只是一个总结。下文节和第2节中提到了所有详细信息。§ 1§ 2
让我们假设分类的情况(也可以扩展到回归,但是为了简洁起见,省略)。本质上,我们的目标是估计树木森林的误差。袋外误差和k倍交叉验证都试图告诉我们以下可能性:
- 森林给出了正确的分类(k折交叉验证以这种方式看待它)。
与以下可能性相同:
两者是相同的。唯一的区别是k倍交叉验证和OOBE假定学习样本的大小不同。例如:
- 在10倍交叉验证中,学习集为90%,而测试集为10%。
- 但是,在OOBE中,如果每个袋子都有样本,那么n =整个样本集中的样本总数,则这意味着学习集实际上约为66%(三分之二),而测试集约为33%(三分之一)。ñn =
因此,在我看来,OOBE是对森林误差进行悲观估计的唯一原因仅是因为与通常使用k倍交叉验证(通常为10倍交叉验证)相比,它通常所训练的样本数量较少。
因此,我还认为2倍交叉验证将比OOBE更悲观地估计森林错误,而3倍交叉验证则与OOBE大致相同。
1.了解袋外错误
1.1关于装袋的普遍看法
ñXñn = | X|Xñ
1.2。套袋的另一种观点
现在,让我们重新描述一下装袋,以期找到一个希望更容易处理的平等描述。
ŤXŤ⊆ XXtn
tXt XtXt,1,Xt,2,…,Xt,r⊆Xt
|Xt|+∑i=1r|Xt,i|=n
C={Xt,Xt,1,…,Xt,r}nCi∈Ca1≤p≤nia[p]∈Ci。
naXt§2a
1.3。简化装袋
taXt
ntXtt′a
Xt
我认为对于给定的划分,熵不会系统地发生变化的原因是,根据经验测得的样本在某些子集中具有特定标签的概率(应用决策划分后)也不会发生变化。
Xtd
1.4测量袋外误差
OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2.了解k折交叉验证
XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
KtK∖{Kt}
fK∖{Kt}
f
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
f