机器学习的维数诅咒解释了吗?


14

我无法理解维数的诅咒。具体来说,我scikit-learn在用python编写教程时遇到了它。有人可以以更简单的方式解释以下内容吗?抱歉,我一直在试图理解最长的时间,无法理解他们是如何提出训练样本数量的计算以实现高效KNN估算器的?

这里是解释:

为了使估算器有效,您需要相邻点之间的距离小于某个值d,这取决于问题。在一个维度上,这平均需要n〜1 / d个点。在上述KNN示例的上下文中,如果仅由一个值在0到1之间且具有n个训练观测值的特征描述数据,则新数据的距离不会超过1 / n。因此,与类间特征变化的规模相比,只要1 / n小,最近的邻居决策规则将非常有效。

如果特征数量为p,则现在需要n〜1 / d ^ p个点。假设我们在一维中需要10个点:现在在p维中需要10 ^ p个点才能铺平[0,1]空间。随着p变大,一个好的估计量所需的训练点数呈指数增长。

在这里链接

编辑:~在该示例中,波浪号()是否也应表示近似值?还是python波浪号运算符?


2
代字号的意思是“与…成比例”
重置者

@mbatchkarov哈谢谢。大约和成正比是那么不同的结论大声笑

Answers:


11

翻译该段:

设置一组描述数据点的功能。也许你在看天气。该组功能可能包括温度,湿度,一天中的时间等内容。因此,每个数据点可能具有一个功能(如果仅查看温度),或者可能具有2个功能(如果您查看温度)和湿度)等等。本段的意思是,根据数据的维数(具有多少个特征),估算器越困难。这是因为,如果您仅具有一个数据特征或一维数据,那么当您对这些数据进行图形处理时,您将得到一个线图,并想象在0-50摄氏度之间的线图,仅需花费每个数据点之前的50个随机点与任何其他数据点大约成1度。现在让我们 s考虑2维,即湿度和温度,现在要找到d使得所有的点都在“ d”个单位之内是比较困难的。想象温度仍然在0-50之间,但现在湿度也在0-100%之间。为了使所有点彼此之间在1或2之间,需要多少个随机点?现在是100 * 50或〜5,000!现在想象3个维,等等。您开始需要更多点,以确保每个点都在某个其他点的d之内。为了使您的生活更轻松,请尝试假设“ d”为1,然后看看会发生什么。希望有帮助!为了使所有点彼此之间在1或2之间,需要多少个随机点?现在是100 * 50或〜5,000!现在想象3个维,等等。您开始需要更多点,以确保每个点都在某个其他点的d之内。为了使您的生活更轻松,请尝试假设“ d”为1,然后看看会发生什么。希望有帮助!为了使所有点彼此之间在1或2之间,需要多少个随机点?现在是100 * 50或〜5,000!现在想象3个维,等等。您开始需要更多点,以确保每个点都在某个其他点的d之内。为了使您的生活更轻松,请尝试假设“ d”为1,然后看看会发生什么。希望有帮助!


2
这是一个很好的解释,但是他们提供的方程式呢?在您的1个特征示例中,如果我希望估算器相距1度(即d = 1),那么他们的方程式n~1/d将意味着n需要大约为1?那没有多大意义?

不,他们是说如果该特征的范围是0-1(我的范围是0-50),那么您将获得1 / d点,使得每个点彼此之间的距离约为d。这对我的示例有效,因为您需要大约50/1点,其中1是“ d”。抱歉,将这些方程式输入会造成混淆,但我认为这应该有所帮助

12

matty-d 已经提供了一个很好的答案,但是我从Quora用户Kevin Lacker中找到了另一个同样可以解释这个问题的答案:

假设您有一条100码长的直线,并且在其上的某个地方掉了1便士。找到它并不难。您沿着线走,这需要两分钟。

现在,假设您在两边各有一个100码的正方形,并且在其上的某个地方掉了一分钱。这将非常困难,就像在两个固定在一起的足球场上进行搜索一样。可能要花几天时间。

现在一个100码宽的立方体。这就像搜索一个足球场大小的30层建筑物。啊。

通过空间搜索的难度得到了很多,你有更多的维度困难。仅在数学公式中说明时,您可能无法直观地意识到这一点,因为它们都具有相同的“宽度”。那就是维度的诅咒。它之所以具有名称是因为它不直观,有用且简单。


-1

该示例可以直观地说明问题,但实际上根本不是严格的证明:这只是一个示例,其中需要大量样本才能获得“良好”的空间覆盖率。可能(确实存在,例如2D六边形)的覆盖范围比常规网格要有效得多……(低差异序列的复杂区域专用于此)……并证明即使覆盖范围如此之好维度的诅咒仍然是另一个问题。实际上,在某些功能空间中,甚至还有一些方法可以解决这个明显的问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.