我正在阅读Hastie的ESL书,而在问题2.3方面却遇到了困难。问题如下:
我们正在考虑原点处的最近邻居估计,并且由该方程式给出了从原点到最近数据点的中值距离。我不知道从哪里开始尝试得出这一点。
我知道大多数数据点比其他任何数据点(维数的诅咒)都更接近样本空间的边界,但是我很难将其转换为线性代数/概率意义。
谢谢!
我正在阅读Hastie的ESL书,而在问题2.3方面却遇到了困难。问题如下:
我们正在考虑原点处的最近邻居估计,并且由该方程式给出了从原点到最近数据点的中值距离。我不知道从哪里开始尝试得出这一点。
我知道大多数数据点比其他任何数据点(维数的诅咒)都更接近样本空间的边界,但是我很难将其转换为线性代数/概率意义。
谢谢!
Answers:
令为距原点的距离,令为单位超球面在维上的体积。那么包含在半径为的超球体中的体积为V 0 [ p ] p r
如果我们让表示该超球面中包含的体积分数,并定义,则R = r p
如果数据点在单元球内均匀分布的,则对于上述式是一个累积分布函数(CDF)对。这等效于单位间隔内的均匀概率密度,即。因此,正如马克·斯通在评论中所暗示的,我们可以将维情况简化为等效的一维问题。- [R [R p [ - [R ] = P ' [ - [R ] = 1个p
现在,如果我们有一个单点,那么根据CDF的定义,我们有和。如果是个点中的最小值,并且所有点都是独立的,则CDF由 (这是单变量极值理论的标准结果)。镨[ ř ≤ ρ ] = P [ ρ ] 镨[ ř ≥ ρ ] = 1 - P [ ρ ] - [R 分钟 Ñ 镨[ ř 分钟 ≥ ρ ] = 镨[ ř ≥ ρ ] Ñ = (1 - ρ )ñ
通过中值的定义,我们有 ,我们可以重写为 ,它等于所需的结果。(1-dp)ñ=1
编辑:尝试以“ ELI5 ”样式的答案,分为三个部分。
对于具有单点的一维情况,距离均匀分布在,因此中位数为。1
在1D中,点以上的最小值的分布是第第一种情况。ñ
在维中,距离不是均匀分布的,而是。[R [R p