向孩子解释“维数的诅咒”

91

我听过很多次关于维数诅咒的信息，但是我仍然无法理解这个主意，因为它全是模糊的。

任何人都可以用最直观的方式来解释这一点，就像您向孩子解释时一样，这样我（和其他困惑的我）才能永远理解这一点？

编辑：

现在，让我们说孩子以某种方式听说了聚类（例如，他们知道如何聚成玩具:)）。尺寸的增加如何使玩具聚类的工作更加困难？

例如，他们过去只考虑玩具的形状和玩具的颜色（一种颜色的玩具），但现在还需要考虑玩具的尺寸和重量。为什么孩子很难找到类似的玩具？

编辑2

为了便于讨论，我需要通过以下方式进行澄清：“为什么孩子很难找到类似的玩具”-我的意思也是为什么在高维空间中会丢失距离的概念？

machine-learning dimensionality-reduction high-dimensional

— 马可
source

4

好问题。而且，您实际上是在把每个统计学家带出来的孩子：D您也让我在堆栈交换上使用了图释:)

— Dawny33

2

相关但不重复：stats.stackexchange.com/questions/99171/…–

— Sycorax

6

“对孩子的维度诅咒”？没睡前。

— ttnphns

看看这个：ixtutor.com/curse-of-Dimensionity-and-the-truths-about-data

— Sanjay Verma

78

大概孩子可能会喜欢吃饼干，所以让我们假设您有一整辆卡车，上面放着不同颜色，不同形状，不同口味，不同价格的饼干...

如果孩子必须选择但只考虑一种特性（例如口味），那么它就有四种可能性：甜，盐，酸，苦，所以孩子只需要尝试四种饼干即可找到他最喜欢的东西。

如果孩子喜欢口味和颜色的组合，并且有4种（我对此很乐观：-））不同的颜色，那么他已经必须在4x4的不同类型中进行选择。

此外，如果他想考虑饼干的形状并且有5种不同的形状，那么他将不得不尝试4x4x5 = 80个饼干

我们可以继续，但是在吃完所有这些饼干后，他可能已经腹痛了……在他做出最佳选择之前：-)除了腹痛，很难记住口味上的差异每个cookie。

如您所见（@Almo），大多数（全部？）情况随着尺寸数量的增加而变得更加复杂，这适用于成人，计算机以及儿童。

如果这能解释正确的概念（我真的不知道是否可以），那么我喜欢这个答案，因为我很确定孩子会理解。

— Almo

14

我喜欢您的回答，但感觉到一半了。我想看到一个解决方案，解决随着尺寸数量的增加，距离变得越来越不重要的问题。

— TrynnaDoStat

1

@TrynnaDoStat：好吧，我回答了这个问题，它没有问距离吗？我认为到目前为止发布的答案都没有提到距离？如果我问你为什么只问我一个问题，我是否很好奇？

3

@fcoppens，因为您的答案是我最喜欢的答案=）

— TrynnaDoStat

因此，如果您有更多维度，那么您还需要更多数据，这可能是不可能的。

— 安东·安德列夫

53

我喜欢在维数方面进行类比，但在几何方面却要多一些，但我希望它对您的孩子仍然足够有用。

狩猎狗很容易，如果它在平原上（二维）奔跑，也许会抓住它。狩猎鸟类要困难得多，因为鸟类现在可以移动了，而且具有额外的空间。如果我们假装幽灵是高维生物（类似于Sphere与Flatland中的 A. Square互动），那么捕获它们的难度就更大。:)

— JM回来了。
source

5

哦，这是一个好人！我什至会朝1D方向走去……也许是毛毛虫在管子里移动？

— 格雷格，

2

好点……那么也许是一个很细的树枝，上面有毛毛虫？它以某种方式近似于一维。自然地，鸟类会猎捕它们，也许附近还有一只乌鸦？

— 格雷格

1

哦! 如果乌鸦学会了一种战术（他们非常聪明！），重力操纵将是不够的：当一只乌鸦从下方靠近而另一只从上方靠近时，它们会成双成对地狩猎。他们知道如果该虫使用了超级大国，它将权衡那些乌鸦之一的可能性。嗯...。那么，具有两个超级功能的错误：重力操纵和时间压缩？难道这不算是5个维度中难以捉摸的bug吗？

— 格雷格

1

捕捉2条跑来跑去的狗可以看作是4d的狩猎，20d可以看到10只狗，30d可以看到10只燕子……

— denis 2015年

1

@Greg，“捕捉”实际上与尺寸无关，它们只是独立运行（有些过于独立。）

— denis

19

好的，让我们分析一下孩子将玩具聚类的例子。
假设孩子只有3个玩具：

一个蓝色的足球
蓝色的freesbe
一个绿色的立方体（好吧，也许这不是您能想到的最有趣的玩具）

关于玩具的制造方法，让我们做以下初步假设：

可能的颜色是：红色，绿色，蓝色
可能的形状是：圆形，正方形，三角形

现在我们可以拥有（num_colors * num_shapes）= 3 * 3 = 9个可能的簇。

这个男孩会把玩具归类如下：

群集A）包含蓝色球和蓝色freesbe，因为它们的颜色和形状相同
群集B）包含超级有趣的绿色立方体

仅使用这两个维度（颜色，形状），我们有2个非空簇：因此在第一种情况下，我们的空间的7/9〜77％是空的。

现在，让我们增加孩子必须考虑的尺寸数。关于玩具的制造方法，我们也做以下假设：

玩具的大小可以在几厘米到1米之间变化，以十厘米为单位：0-10cm，11-20cm，...，91cm-1m
玩具的重量可以类似的方式变化，最大可达1千克，步长为100克：0-100g，101-200g，...，901g-1kg。

如果现在要对玩具进行聚类，则有（num_colors * num_shapes * num_sizes * num_weights）= 3 * 3 * 10 * 10 = 900个可能的聚类。

这个男孩会把玩具归类如下：

群集A）包含蓝色足球，因为它又重又蓝
群集B）包含蓝色freesbe，因为它是蓝色和浅色
群集C）包含超级有趣的绿色立方体

使用当前的4个维度（形状，颜色，大小，重量），只有3个簇是非空的：因此在这种情况下，897/900〜99.7％的空间是空的。

这是您在Wikipedia（https://en.wikipedia.org/wiki/Curse_of_Dimensionity）上找到的示例：
...当维数增加时，空间量增长得如此之快，以至于可用数据变得稀疏。

编辑：我不确定我是否真的可以向孩子解释为什么在高维空间中距离有时会出错，但是让我们尝试以孩子和他的玩具为例。

仅考虑两个第一特征{颜色，形状}每个人都同意，蓝色球与蓝色freesbe相似，而不是绿色立方体。

现在，让我们添加其他98个功能{例如：尺寸，重量，生产日_玩具，材料，柔软度，生产日_价格，价格等}：对我来说，判断哪个玩具与哪个玩具相似将越来越困难。

所以：

在相似性的某种比较中，大量特征可能无关紧要，从而导致信噪比下降。
在高维度上，所有示例均“相似”。

如果您听我说，那么好的演讲是“关于机器学习的一些有用的知识”（http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf），第6段特别介绍了这一点。某种推理。

希望这可以帮助！

— ndrplz
source

我非常喜欢你的解释，谢谢。我现在更了解空间的稀疏性，但是您能否“说明”为什么孩子在更大尺寸的情况下很难找到哪个玩具更相似？如果我错了，请纠正我，但是，我了解到距离的概念在这样的空间中被破坏了，因此很难确定哪些玩具更相似。这是为什么？

— Marko 2015年

该论点似乎使尺寸与尺寸混淆。将长度和权重划分为十个分区是任意的。尽管引入了这两个新因素，但设置仅增加了两个维度，但合并会夸大您对“空间”的“大小”的估计。但是，完全不改变情况，您可以将大小和重量合并到箱中，并得出结论，基本上所有空间都是“空的”。

10^{100}

$10^{100}$

— ub

@whuber：您是对的，为了保持简单，我使用了错误的单词

— ndrplz

@whuber：但是尺寸被常常被看作是（的一些概念）“大小”的量度

— 谢蒂尔b Halvorsen的

@Kjetil是一个有趣的观点，很值得探讨。但是，您是否认为重要的是要弄清维度是“大小”的含义，并将其与统计设置中“大小”的其他含义区分开来吗？

— ub

14

我遇到了以下链接，该链接提供了关于维数诅咒的非常直观（且详细的）说明：http : //www.visiondummy.com/2014/04/curse-Dimensionity-affect-classification/

在本文中，我们将讨论所谓的“维数诅咒”，并解释为什么在设计分类器时它很重要。在以下各节中，我将对这一概念进行直观的说明，并通过一个因尺寸的诅咒而过度拟合的清晰示例来说明。

简而言之，本文得出的结论是，添加更多特征（即增加特征空间的维数）需要收集更多数据。实际上，随着我们添加更多维度，我们需要收集（以避免过度拟合）的数据量呈指数增长。

它还具有类似以下插图的精美插图：

— 科斯塔斯
source

+1，链接确实很好！我已经编辑了报价和示例图像，但是如果您还可以提供所解释内容的简短摘要，那会更好。

— 变形虫

1

谢谢你的建议。我已经相应地编辑了响应。

— kostas 2013年

8

维度的诅咒在定义上有些模糊，因为它描述了不同学科中不同但相关的事物。以下内容说明了机器学习的维度诅咒：

假设一个女孩有十个玩具，而她只喜欢用斜体字表示的玩具：

棕色的泰迪熊
一辆蓝色的车
一列红色的火车
黄色的挖掘机
一本绿皮书
灰色的毛绒海象
黑色马车
一个粉红色的球
一本白皮书
橙色娃娃

现在，她的父亲想给她一个新玩具作为生日礼物，并希望确保她喜欢它。他非常努力地思考自己喜欢的玩具有什么共同之处，并最终找到解决方案。他给女儿一个全彩色的拼图游戏。当她不喜欢时，他回答：“你为什么不喜欢它？它确实包含字母w。”

父亲成为维数诅咒（以及样本优化）的受害者。通过考虑字母，他在一个26维的空间中移动，因此很有可能会找到一些区分女儿喜欢的玩具的标准。不必像示例中那样是一个单字母标准，但也可能是类似

包含a，n和p中的至少一个，但不包含u，f和s。

为了充分判断字母是否是确定女儿喜欢哪种玩具的良好标准，父亲必须知道女儿对大量玩具的喜好¹–或只是动动脑筋，只考虑实际上可以想到的参数来影响女儿的玩具。意见。

¹数量级：，如果所有字母都有相同的可能性，并且他不会考虑字母的多次出现。 $2^{26}$

— z
source

1

+1非常清楚，谢谢。这应该是公认的答案。

— MiniQuark

7

想一想一个包含在单位正方形中的圆。
考虑一下包围在单位立方体中的球体。
考虑一下包含在n维单位超立方体中的n维超球体。

当以单位测量时，超立方体的体积当然是1 。但是，超球体的体积随着n的增加而缩小。 $1^n$

如果超球体内部存在一些有趣的事物，那么从更高的维度看就越来越难了。在维的情况下，超球消失了！这就是诅咒。 $\infty$

更新：似乎有些人没有与统计数据建立联系。如果您想在超级立方体中选择一个随机点，就可以看到这种关系。在二维情况下，此点在圆（超球体）内的概率为，在二维情况下为等。在情况下，概率为零。 $\pi/4$ $\pi/6$ $\infty$

— 阿克萨卡尔族
source

5

我：“我正在想一个以'S'开头的棕色小动物。这是什么？”

她：“松鼠！”

我：“好吧，再难一点。我在想一只棕色的小动物。这是什么？”

她：“还是松鼠吗？”

我：“不”

她：“老鼠，老鼠，田鼠？

我：“不”

她：“嗯...给我一个线索”

我：“不会，但是我会做得更好：让您回答CrossValidated问题”

她：[gro吟]

我：“问题是：维数的诅咒是什么？您已经知道答案了”

她：“我知道吗？”

我：“你知道。为什么猜第一个动物比第二个更难？”

她说：“因为棕色小动物比以'S'开头的棕色小动物更多？”

我：“对。这就是维度的诅咒。让我们再玩一次。”

她：“好”

我：“我在想什么。这是什么？”

她：“不公平。这场比赛很难。”

我：“是的。这就是为什么他们称其为诅咒。如果不了解我倾向于思考的事情，您就无法做好。”

— 共轭先验
source

4

假设您要运送一些货物。您希望在包装货物时浪费尽可能少的空间（即，尽可能少地留空），因为运输成本与信封/盒子的体积有关。您可以使用的容器（信封，盒子）成直角，因此没有麻袋等。

第一个问题：运送一支笔（一条“线”）-您可以在它周围建立一个没有损失空间的盒子。

第二个问题：运送CD（“球”）。您需要将其放入方形信封中。根据孩子的年龄，她也许能够计算出多少信封会空着（并且仍然知道有CD，而不仅仅是下载;-)。

第三个问题：运送足球（足球，必须充气！）。您需要将其放入盒子中，并且一些空间将保持空白。与CD示例相比，该空白空间占总容量的比例更高。

那时我的直觉停止了，因为我无法想象第四个维度。

编辑：类比对于非参数估计最有用（如果有的话），它使用对感兴趣点“局部”的观测值来估计该点的密度或回归函数。维数的诅咒是，对于更高的维数，对于给定数量的观察值，要么需要更大的邻域（这使局部性的概念成为可疑的），要么是大量的数据。

— 克里斯多夫·汉克
source

好的，谢谢您的解释。因此，基本上很难“填充”整个空间，所以这就是为什么您需要更大的样本吗？我需要让我的问题更具体：)我将对其进行编辑，请同时检查其他部分。

— Marko 2015年

是的，请参阅我的编辑-将不得不考虑群集

— Christoph Hanck

3

我想建议您不仅可以想象第四维，而且您实际上已经想象到非常高的维。毕竟，时间序列中的一组个点不过是维度中的单个向量。如果您能找到一种方法将维数诅咒的概念转化为此类系列的比较，那么您将帮助其他人（甚至是这个假设的孩子）也能理解它。

n

$n$

n

$n$

— ub

@whuber这是时间序列示例中的诅咒所在。假设我们的时间序列是在一定量（离散）时间上的随机游走，并且在每个阶段，步行者都会移动随机（iid〜uniform（-1，1））数量。例如，您正在跟踪一条直线上的苍蝇。现在，您的反应/视力非常好，并且要使您的眼睛始终处于飞行状态，而不必全盘绕线，您需要它在任一方向上最多移动0.5个单位。当然，如果您等待足够长的时间，苍蝇会跳出这个数量，而您会失去它。但是，对于任何固定的时间长度，有多少条路径（续）

— Julien Clancy

会导致您迷路吗？维度的诅咒说：随着时间的流逝，几乎所有维度都变得如此。而且，您可以使视力达到一定程度的无限好（也就是说，您可以检测到任一方向上的运动最多为1个），并且发生相同的情况。

— Julien Clancy

1

我的6岁孩子更多地是在主因研究的诗句上，例如“但是宇宙中所有这些气体是从哪里来的？” ...好吧，我想你的孩子会理解“更高的维度”，这看起来非常对我来说不太可能。

让我们提出以下问题：在 -cube，一一挑选随机点。在下角得到一个点需要多长时间？ $n$ $[0,1]^n$ $\left[ {1\over2}, {1\over2}\right]^n$

年轻人，答案是，一个随机点位于此下角的概率为，这意味着在击中左侧之前要绘制的预期点数角是（根据几何分布的属性）。正如您从小麦和棋盘问题中了解到的那样，这很快变得非常巨大。 $\left({1\over 2}\right)^n$ $2^n$

现在去接你的房间，爸爸去上班了。

关于聚类的PS ...请考虑一下散布在此高维框中的点。它是如此之大，以至于有个子框，其边长为。在同一子框中选择两个点需要一些时间。嗯，即使不是随机地均匀绘制点，而是在某些群集中也可能会出现问题。如果聚类的选择不小，则可能需要很长时间才能在同一子框中选择两个点。您了解这会阻碍群集... $2^n$ ${1\over 2}$

— 猫王
source

1

嗯，是的，这与f coppens的cookie答案相同，但创造性较低。但这可能会帮助非孩子们看到这样的措辞……

— Elvis

0

有一个经典的，教科书，数学问题说明了这一点。

您是想每月（选项1）每天赚100便士，还是一个月，或者（选项2）每天赚一分钱？您可以问您的孩子这个问题。

如果选择选项1，则
在第1天的第2天获得100便士，在第3天的获得100便士，在第3天获得100便士...在第30天的价格为100便士

在第天，您将获得100便士。 $n^{th}$

通过将天数乘以每天的便士数，可以得出便士的总数：

\sum_{i = 1}^{30} 100 = 30 \cdot 100 = 3000

$\sum_{i=1}^{30}100 = 30 \cdot 100 = 3000$

如果选择选项2：
在第1天，第2天获得1便士，在第3天获得2便士，在第4天获得4便士，在第5天获得8便士，在第5天得到16便士...在第30天，您获得1,073,741,824便士

在第天，您将获得便士。 $n^{th}$ $2^n$

便士总数观察到，所有前几天的总和比当日收到的便士数目少一：

\sum_{i = 1}^{30} 2^{n} = (2^{31}) - 1 = 2147483648 - 1 = 2147483647

$\sum_{i=1}^{30}2^n= \left(2^{31} \right)-1 = 2147483648 - 1 = 2147483647$

任何有贪婪的人都会选择更大的数字。简单的贪婪很容易找到，几乎不需要思考。不会说话的动物容易贪婪-众所周知，昆虫擅长贪婪。人类有更多的能力。

如果从一分钱而不是一百美元开始，贪婪会更容易，但是如果您更改多项式的幂，则更加复杂。复杂也意味着更有价值。

关于“诅咒”
与物理学相关的“最重要的”数学运算是矩阵求逆。它驱动偏微分方程系统的解决方案，其中最常见的是麦克斯韦方程（电磁），纳维斯托克斯方程（流体），泊松方程（扩散传递）和胡克斯定律的变化（可变形固体）。每个方程式都有围绕它们的大学课程。

如线性代数（aka Gauss-Jordan方法）所述，原始矩阵求逆需要完成运算。这里的“ n”不是维数，而是离散块的数量。它可以轻松地抽象为多个维度。如果需要10个块来充分表示2d对象的几何形状，则至少需要10 ^ 2来充分表示3d模拟，而至少10 ^ 2 ^ 2则表示4d模拟。如果您从几何角度考虑，您可能会说“没有4维”，但是就诸如温度，浓度或特定方向上的速度之类的物理量而言，每个都需要有自己的“列”并计为维。将这些等式从2d转换为3d可以使“ n”增加几倍。 $n^3$

之所以存在这个诅咒，是因为如果克服了这个诅咒，彩虹的尽头就会有一锅黄金价值。这并不容易-伟大的思想家已经积极地解决了这个问题。

链接：

https://zh.wikipedia.org/wiki/数学运算的复杂性

— 工程师
source

1

您的示例似乎与显示多项式和指数增长之间的差异有关，而不是与维数的诅咒有关。

— JM不是统计学家

多项式和指数增长是诅咒。如果它是线性的，那么加密将不起作用，并且瓶中的融合将很容易模拟。这是“诅咒”（维基百科的超链接）的枚举-没有它，计算机数学将突然变得比原来更令人惊奇。 en.wikipedia.org/wiki/...

— EngrStudent

正是城市传说在2008年发现了矩阵求逆的巨大突破，矩阵求逆降到2以下，但被分类并用于模拟核武器等。

— EngrStudent

1

我几乎被说服了，直到“用于模拟核武器等”。; P但是，严重的是，尽管具有一个隐含常数，但Coppersmith-Winograd似乎仍然是最好的，它仅对大型矩阵有用。

— JM不是统计学家

与您的答案和先前的评论有切线关系：有效地计算行列式并不难，但是计算永久性则是另一回事。

— JM不是统计学家

0

Fcop提供了一个很好的类比Cookie，但仅涵盖了维数诅咒的采样密度方面。我们可以通过将相同数量的Fcop cookie分布在一行中的十个盒子，桌子上平整的10x10盒子和一叠的10x10x10中，分配这种数量的Fcop's cookie。然后，您可以证明，要吃相同份额的饼干，孩子将不得不打开更多的盒子。

这实际上与期望有关，但让我们以“最坏情况”为例进行说明。

如果有8个饼干，我们想吃一半，即4个，在最坏的情况下，从10盒开始，我们只需要打开6盒即可。那是60％-大约一半。从10x10（最糟糕的情况下）-96（％）。从10x10x10-996（99,6％）。几乎就是所有这些！

可能是储藏室的类比，而这里之间走的距离会比这里的盒子更好。

— 迭戈
source

好扩展：-)