在随机森林中接近意味着什么?


13

我偶然发现了随机森林中的“接近度”一词。但是我不明白它在随机森林中的作用。对于分类目的有何帮助?

Answers:


13

术语“接近”是指成对的案例之间的“接近”或“接近”。

计算每对病例/观察值/样本点的接近度。如果两个案例通过一棵树占据相同的终端节点,则它们的接近度增加一。在所有树的运行结束时,通过除以树数来标准化接近度。邻近度用于替换丢失的数据,定位异常值并生成照亮的低维数据视图。

邻近度

邻近区域最初形成一个NxN矩阵。树长大后,将所有数据(包括训练和oob)放到树上。如果情况k和n在同一终端节点中,则将它们的接近度增加1。最后,通过除以树数来标准化接近度。

用户注意到,对于大型数据集,他们无法将NxN矩阵放入快速存储器中。修改将所需的内存大小减小为NxT,其中T是森林中的树数。为了加快计算密集型缩放和迭代缺失值替换,用户可以选择仅保留每种情况下最大的近似值。

当存在测试集时,还可以计算测试集中每种情况与训练集中每种情况的接近度。额外的计算量适中。

引用:https : //www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm


“ nrnn”代表什么?我正在阅读RF上的阿黛尔·卡特勒(Adele Cutler)的页面(或者可能是Breiman的页面,因为我不能告诉谁在这里写什么),而我找不到它们定义nrnn的位置。(这很可能是与我碰巧是一个不熟悉的线性代数项。
坦纳斯特伦克

nrnn =要为其计算接近度的最近邻居的数量。资料来源:math.usu.edu/adele/RandomForests/ENAR.pdf第161页
klumbard,

0

请注意,《统计学习元素》的作者指出:“无论数据如何,随机森林的邻近图通常看起来都非常相似,这使它们的效用受到怀疑。它们倾向于呈星形,每类一只手臂,这要好得多。表现出更好的分类性能。” (p 595)

但是,我认为这些作者并未过多地提及随机森林如何处理丢失的数据(即使他们在本书前面提到了树木丢失的数据)也是如此。也许作者只是没有重点介绍RF的这一方面,所以考虑到这本书很大且具有许多有关机器学习主题/技术的信息,这是有道理的。但是,我认为对于任何RF和数据集来说,让图具有相似的形状都不会对RF产生任何负面影响。例如,线性回归基本上看起来总是相同的,但是从线性回归的角度来看,有必要知道哪些点靠近直线,哪些似乎离群值。所以...他们对邻近图的实用性的评论对我来说没有意义。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.