维度的诅咒是什么?


21

具体来说,我正在寻找参考资料(论文,书籍),这些参考资料将严格显示和解释维数的诅咒。在我开始阅读Lafferty和Wasserman的白皮书后,出现了这个问题。在第三段中,他们提到了一个“众所周知的”方程,这意味着最佳收敛速度为;如果有人可以对此进行阐述(并加以解释),那将非常有帮助。n4/(4d)

另外,有人能指出我引用衍生“公知”方程式的参考吗?


7
我无法阐明,但我相信我听过三种不同版本的诅咒:1)尺寸越大,工作量就成倍增加; 2)尺寸越大,您在任何部分得到的例子将越来越少3)在高维度上,所有内容通常都是等距的,因此很难进行任何区分。
韦恩

5
您可以从几何上解释。假设您有一个D维度的球体,半径为r = 1。然后,您可以提出以下问题:半径r = 1和r = 1-e之间的球体体积的多少。由于我们知道球体的体积像k(d)* r ^(d)一样缩放,其中d是维数,因此我们可以得出分数由1-(1-e)^ d给出。因此,对于高维球体,大部分体积都集中在靠近表面的薄壳中。请参阅Bishops的“模式识别和机器学习”一书中的更多内容。
迈克博士,

@韦恩 加5)更多的暗淡通常意味着更多的噪音。

迈克博士,我不遵循逻辑。听起来您是在说:“由于大部分体积都集中在高维球体表面附近的薄壳中,因此您对维数感到着迷。” 您能否进一步解释,也许可以明确地向我展示类比与统计之间的联系?
khoda 2011年

Answers:


9

接下来的richiemorrisroe,这是来自《统计学习要素》第二章(pp22-27)的相关图像:

ESL第25页

如您在右上方窗格中看到的,在1维上相隔1个单位的邻居比在2维内相隔1个单位的邻居更多。3个维度会更糟!


7

这并不能直接回答您的问题,但是David Donoho在“ 高维度数据分析:维度的诅咒与祝福”(相关幻灯片在这里)上有一篇不错的文章,其中提到了三个诅咒:

  • d1个/ϵdϵ
  • d1个/ϵdϵ
  • d1个/ϵdϵ

6

我知道我一直在引用它,但是对此有一个很好的解释是《统计学习的要素》,第2章(pp22-27)。他们基本上注意到,随着维度的增加,数据量需要随之增加(呈指数增长),否则较大的样本空间中将没有足够的点来进行任何有用的分析。

他们将Bellman(1961)的论文作为来源,似乎是他的书《自适应控制过程》,可从亚马逊这里获得。


+1。ESL中的解释很棒,相关的图表很有帮助。
Zach

2

在此处输入图片说明

下列限制可能捕获了最臭名昭著的影响(上图间接显示):

limdimdistmaxdistmindistmiñ

L2kLķ


维数对图片数据的影响

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.