Answers:
术语“接近”是指成对的案例之间的“接近”或“接近”。
计算每对病例/观察值/样本点的接近度。如果两个案例通过一棵树占据相同的终端节点,则它们的接近度增加一。在所有树的运行结束时,通过除以树数来标准化接近度。邻近度用于替换丢失的数据,定位异常值并生成照亮的低维数据视图。
邻近度
邻近区域最初形成一个NxN矩阵。树长大后,将所有数据(包括训练和oob)放到树上。如果情况k和n在同一终端节点中,则将它们的接近度增加1。最后,通过除以树数来标准化接近度。
用户注意到,对于大型数据集,他们无法将NxN矩阵放入快速存储器中。修改将所需的内存大小减小为NxT,其中T是森林中的树数。为了加快计算密集型缩放和迭代缺失值替换,用户可以选择仅保留每种情况下最大的近似值。
当存在测试集时,还可以计算测试集中每种情况与训练集中每种情况的接近度。额外的计算量适中。
引用:https : //www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
请注意,《统计学习元素》的作者指出:“无论数据如何,随机森林的邻近图通常看起来都非常相似,这使它们的效用受到怀疑。它们倾向于呈星形,每类一只手臂,这要好得多。表现出更好的分类性能。” (p 595)
但是,我认为这些作者并未过多地提及随机森林如何处理丢失的数据(即使他们在本书前面提到了树木丢失的数据)也是如此。也许作者只是没有重点介绍RF的这一方面,所以考虑到这本书很大且具有许多有关机器学习主题/技术的信息,这是有道理的。但是,我认为对于任何RF和数据集来说,让图具有相似的形状都不会对RF产生任何负面影响。例如,线性回归基本上看起来总是相同的,但是从线性回归的角度来看,有必要知道哪些点靠近直线,哪些似乎离群值。所以...他们对邻近图的实用性的评论对我来说没有意义。