在随机森林中接近意味着什么？

13

我偶然发现了随机森林中的“接近度”一词。但是我不明白它在随机森林中的作用。对于分类目的有何帮助？

machine-learning random-forest

— 用户3796494
source

13

术语“接近”是指成对的案例之间的“接近”或“接近”。

计算每对病例/观察值/样本点的接近度。如果两个案例通过一棵树占据相同的终端节点，则它们的接近度增加一。在所有树的运行结束时，通过除以树数来标准化接近度。邻近度用于替换丢失的数据，定位异常值并生成照亮的低维数据视图。

邻近度

邻近区域最初形成一个NxN矩阵。树长大后，将所有数据（包括训练和oob）放到树上。如果情况k和n在同一终端节点中，则将它们的接近度增加1。最后，通过除以树数来标准化接近度。

用户注意到，对于大型数据集，他们无法将NxN矩阵放入快速存储器中。修改将所需的内存大小减小为NxT，其中T是森林中的树数。为了加快计算密集型缩放和迭代缺失值替换，用户可以选择仅保留每种情况下最大的近似值。

当存在测试集时，还可以计算测试集中每种情况与训练集中每种情况的接近度。额外的计算量适中。

引用：https : //www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

— 正弦
source

“ nrnn”代表什么？我正在阅读RF上的阿黛尔·卡特勒（Adele Cutler）的页面（或者可能是Breiman的页面，因为我不能告诉谁在这里写什么），而我找不到它们定义nrnn的位置。（这很可能是与我碰巧是一个不熟悉的线性代数项。

— 坦纳斯特伦克

nrnn =要为其计算接近度的最近邻居的数量。资料来源：math.usu.edu/adele/RandomForests/ENAR.pdf第161页

— klumbard，

0

请注意，《统计学习元素》的作者指出：“无论数据如何，随机森林的邻近图通常看起来都非常相似，这使它们的效用受到怀疑。它们倾向于呈星形，每类一只手臂，这要好得多。表现出更好的分类性能。” （p 595）

但是，我认为这些作者并未过多地提及随机森林如何处理丢失的数据（即使他们在本书前面提到了树木丢失的数据）也是如此。也许作者只是没有重点介绍RF的这一方面，所以考虑到这本书很大且具有许多有关机器学习主题/技术的信息，这是有道理的。但是，我认为对于任何RF和数据集来说，让图具有相似的形状都不会对RF产生任何负面影响。例如，线性回归基本上看起来总是相同的，但是从线性回归的角度来看，有必要知道哪些点靠近直线，哪些似乎离群值。所以...他们对邻近图的实用性的评论对我来说没有意义。

— 坦纳·斯特朗克
source