单位球N个样本的最接近原点的中值最近点的公式的解释


11

《统计学习的元素》中,引入了一个问题以突出高维空间中k-nn的问题。有N被均匀地分布在一个数据点p维单位球。

从原点到最近的数据点的中值距离由以下表达式给出:

d(p,N)=(1(12)1N)1p

N=1,公式分解为球半径的一半,我可以看到最近的点如何以方式接近边界p,从而使knn后面的直觉在高维度上分解。但是我无法理解为什么公式依赖于N。有人可以澄清一下吗?

该书还指出:“……在训练样本的边缘附近进行预测要困难得多。必须从邻近的样本点推断而不是在它们之间进行内插”。这似乎是一个深刻的陈述,但我似乎无法理解它的含义。有人可以改写吗?


1
您需要稍微编辑显示的方程式。那是指数仅适用于分子中分子1的样子,或者您希望将其应用于整数11N112
Dilip Sarwate'1

1
这将有助于区分“超球”(在为维p - 1的流形)与“单位球”(维为p)。超球是球的边界。如果像你的标题说,所有点都从采样超球的定义- - ,那么他们都有距离1从原点,平均距离为1,所有都同样接近原点。Rpp1p11
ub

@DilipSarwate应用于整个。在书中有一个例子,其中Ñ=500p=10,以便dpÑ0.5212N=500,p=10d(p,N)0.52
user64773

Answers:


8

半径为r维超球的体积与r p成正比。prrp

所以体积超过一定距离的比例从原点是- [R p - ķ - [R pkrrp(kr)prp=1kp

所有随机选择的点都大于距原点的距离k r的概率为 1 - k p N。要获得到最近随机点的中值距离,请将此概率设置为1Nkr(1kp)N。因此1kpN=112

(1kp)N=12
k=(1121/N)1/p.

kN21/NN121/NN1121/NNp


啊,看它的好方法。您能否在第二个问题中重新解释报价?
user64773

我怀疑这可能表明在高维度上,要预测的点实际上距离训练数据还有很长的路要走,就像在球的边缘上一样,因此您并不是真正地进行内插而是要进行外推,因此不确定性更大。但是我真的不知道。
亨利

我不明白-我理解为什么这个表达式是所有点都比kr更远的概率,但是为什么将此概率设置为1/2可以得到中值距离呢?
ihadanny

1
k=(1121/N)1/pN12112=12kr

中位数的定义,一半更大,另一半更小。
Grant Izmirlian

1

现在不用挥手了

  1. P(min1iNYi>y)=(1F(y))N,
    F
  2. 因此,如果我们有 iid个 在维度上均匀分布在单位球中,则 其中是距离的公共CDF,。最后,对于单位球中的均匀分布点,CDF是多少?点位于单位半径的球内半径为r的球等于体积比的概率:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

因此解决方案

1/2=P(min1iN||Xi||>r)=(1rp)N

r=(1(1/2)1/N)1/p.

还有关于样本量依赖性的问题。对于固定的,随着球充满更多的点,自然到原点的最小距离应该变小。pNp

最后,您的体积比率有些不对劲。看起来应该是单位球的体积。- [R pkRp


0

简洁明了:

我们想要在尺寸的单位半径的原点找到均匀分布的点中最接近点到原点的中值距离。由于统计上的独立性,最小距离超过的概率(称为此数量表达式[1])是单个均匀分布点超过的概率的次方。后者减去一个均匀分布的点小于的概率。后者是半径为的球与单位半径的球或的体积之比。我们现在可以将表达式[1]编写为NprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

要找到最小距离分布的中位数,请将上述概率设置为并求解,以获得答案。1/2r

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.