为什么我的随机森林结果如此变化？

我正在尝试测试随机森林对两组样本进行分类的能力；有54个样本和不同数量的变量用于分类。

我想知道为什么即使我使用5万棵树，袋外（OOB）估计值之间的差异也会高达5％？这对引导程序有帮助吗？

machine-learning random-forest

— 塞斯扎德
source

您需要几个样本。这么少的样本，5万棵树毫无意义。变异很可能只是一次样品在两次运行之间被错误分类。

— ThiS

@ThiS我认为增加树的数量会减少我得到的差异。有没有办法将其有效地减少为零，或者知道哪一个是最准确的？

— 塞斯扎德

OOB方差有两个来源。一是程序本身的随机性；二是程序本身的随机性。这可以通过增加树木数量来减少。

差异的另一个来源是数据有限且生活在复杂世界中的不可挽回的缺陷。增加树木数量无法解决此问题。

另外，有时只是没有足够的数据来解决问题。例如，假设两个实例的标签相反，但特征值相同。这些样本之一将始终被错误分类。（这是一个极端的例子，但说明了一些问题是无法解决的。我们可以通过考虑对一个向量的微小扰动来稍微放松一下；现在通常将其分类为与它的孪生子相同，但并非总是如此。），则您必须收集其他度量值才能进一步区分这两点。

不过，增加树的数量可以减少类的估计的方差。考虑中心极限定理的结果：增加样本数量可以减少统计量的变化，如平均值，但不能消除。随机森林预测是所有树木预测的平均，这些预测本身就是随机变量（由于自举和特征的随机子集；两者均独立发生，因此票数也相同）。CLT规定接近正态分布，其中是真实的均值预测和 $p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ 是树木投票的方差。（表决采用0或1的值，因此，平均表决具有有限的方差。）重点是，使树数增加一倍会将的方差减少一半，但不会将其推到零。 $\bar{x}$ （除非，但是我们知道这里不是这种情况。） $\sigma^2=0$

自举无法解决不可减少的方差。而且，随机森林已经启动。这是它的名称具有“随机性”的部分原因。（另一个原因是在每个分割中选择了特征的随机子集。）

— Sycorax说恢复莫妮卡
source