Answers:
OOB方差有两个来源。一是程序本身的随机性;二是程序本身的随机性。这可以通过增加树木数量来减少。
差异的另一个来源是数据有限且生活在复杂世界中的不可挽回的缺陷。增加树木数量无法解决此问题。
另外,有时只是没有足够的数据来解决问题。例如,假设两个实例的标签相反,但特征值相同。这些样本之一将始终被错误分类。(这是一个极端的例子,但说明了一些问题是无法解决的。我们可以通过考虑对一个向量的微小扰动来稍微放松一下;现在通常将其分类为与它的孪生子相同,但并非总是如此。) ,则您必须收集其他度量值才能进一步区分这两点。
不过,增加树的数量可以减少类的估计的方差。考虑中心极限定理的结果:增加样本数量可以减少统计量的变化,如平均值,但不能消除。随机森林预测是所有树木预测的平均,这些预测本身就是随机变量(由于自举和特征的随机子集;两者均独立发生,因此票数也相同)。CLT规定接近正态分布,其中是真实的均值预测和是树木投票的方差。(表决采用0或1的值,因此,平均表决具有有限的方差。)重点是,使树数增加一倍会将的方差减少一半,但不会将其推到零。(除非,但是我们知道这里不是这种情况。)
自举无法解决不可减少的方差。而且,随机森林已经启动。这是它的名称具有“随机性”的部分原因。(另一个原因是在每个分割中选择了特征的随机子集。)