有人可以从Hastie的ESL书中解释一下像我5岁这样的问题吗?


9

我正在阅读Hastie的ESL书,而在问题2.3方面却遇到了困难。问题如下:

在此处输入图片说明

我们正在考虑原点处的最近邻居估计,并且由该方程式给出了从原点到最近数据点的中值距离。我不知道从哪里开始尝试得出这一点。

我知道大多数数据点比其他任何数据点(维数的诅咒)都更接近样本空间的边界,但是我很难将其转换为线性代数/概率意义。

谢谢!


4
标题中的“ ELI5”是什么意思?如果要推导该方程,则需要从球上的点的概率模型开始:该模型是什么?(请不要要求您的读者参考书或其他网站,以了解您的问题。)
whuber

3
@whuber我同意-缩写词是一种糟糕的哈希方案。
Sycorax说恢复莫妮卡

14
你今年五岁。所有要归功于您想了解ESL,但您必须等到六岁。这是给大男孩和女孩的书。
尼克·考克斯

4
五岁的孩子可能会从一维情况开始看(p = 1)。一旦掌握了,就从那里拿走。
马克·L·斯通

3
如果我们要让ELI5阐明ESL呢?
mdewey

Answers:


15

令为距原点的距离,令为单位超球面在维上的体积。那么包含在半径为的超球体中的体积为V 0 [ p ] p rrV0[p]pr

V[r]=V0[p]rp

如果我们让表示该超球面中包含的体积分数,并定义,则R = r pP=V[r]/V0[p]R=rp

P[R]=R

如果数据点在单元球内均匀分布的,则对于上述式是一个累积分布函数(CDF)对。这等效于单位间隔内的均匀概率密度,即。因此,正如马克·斯通在评论中所暗示的,我们可以将维情况简化为等效的一维问题。- [R [R p [ - [R ] = P ' [ - [R ] = 1个p0R1RRp[R]=P[R]=1p

现在,如果我们有一个单点,那么根据CDF的定义,我们有和。如果是个点中的最小值,并且所有点都是独立的,则CDF由 (这是单变量极值理论的标准结果)。[ ř ρ ] = P [ ρ ] [ ř ρ ] = 1 - P [ ρ ] - [R 分钟 Ñ [ ř 分钟ρ ] = [ ř ρ ] Ñ = 1 - ρ ñRPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

通过中值的定义,我们有 ,我们可以重写为 ,它等于所需的结果。1-dpñ=1

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

编辑:尝试以“ ELI5 ”样式的答案,分为三个部分。

  1. 对于具有单点的一维情况,距离均匀分布在,因此中位数为。1[0,1]12

  2. 在1D中,点以上的最小值的分布是第第一种情况。ñnn

  3. 在维中,距离不是均匀分布的,而是。[R [R pprrp


1
哈哈,我评论说一个5岁的孩子可能首先看p = 1的情况。我考虑添加一条评论,即4岁可能不仅以p = 1情况开始,还可能以n = 1开始。但是我认为我会让5岁的人知道这一点。
马克·L·斯通

1
请注意,当我回答问题时,@ fcop澄清了以下内容:“考虑将N个数据点均匀地分布在以原点为中心的p维单位球中。显示从原点到目标点的平均距离最接近的数据点由...“给出。因此,相对于维空间中范数的单位球。在此之后,问题又回滚到原来的问题,这个问题有所不同并且不清楚。(请参阅原始问题下的评论链。) pL2p
GeoMatt22年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.