在《统计学习的元素》中,引入了一个问题以突出高维空间中k-nn的问题。有被均匀地分布在一个数据点维单位球。
从原点到最近的数据点的中值距离由以下表达式给出:
当,公式分解为球半径的一半,我可以看到最近的点如何以方式接近边界,从而使knn后面的直觉在高维度上分解。但是我无法理解为什么公式依赖于N。有人可以澄清一下吗?
该书还指出:“……在训练样本的边缘附近进行预测要困难得多。必须从邻近的样本点推断而不是在它们之间进行内插”。这似乎是一个深刻的陈述,但我似乎无法理解它的含义。有人可以改写吗?
在《统计学习的元素》中,引入了一个问题以突出高维空间中k-nn的问题。有被均匀地分布在一个数据点维单位球。
从原点到最近的数据点的中值距离由以下表达式给出:
当,公式分解为球半径的一半,我可以看到最近的点如何以方式接近边界,从而使knn后面的直觉在高维度上分解。但是我无法理解为什么公式依赖于N。有人可以澄清一下吗?
该书还指出:“……在训练样本的边缘附近进行预测要困难得多。必须从邻近的样本点推断而不是在它们之间进行内插”。这似乎是一个深刻的陈述,但我似乎无法理解它的含义。有人可以改写吗?
Answers:
半径为r的维超球的体积与r p成正比。
所以体积超过一定距离的比例从原点是- [R p - (ķ - [R )p。
所有随机选择的点都大于距原点的距离k r的概率为( 1 - k p ) N。要获得到最近随机点的中值距离,请将此概率设置为1。因此(1−kp)N=1