Answers:
这是一个简单的玩具示例,说明了尺寸问题在辨别问题中的作用,例如,您想说是否观察到某物或仅观察到随机作用时所遇到的问题(此问题在科学上是经典的)。
启发式。 这里的关键问题是,欧几里得准则对任何方向都具有相同的重要性。这构成了缺乏先验的问题,而且正如您肯定在高维度上知道的那样,这里没有免费的午餐(即,如果您对要搜索的内容一无所知,那么就没有理由为什么有些杂音不会像您想要的那样搜索,这就是重言式...)。
我想说的是,对于任何问题,找到噪声以外的东西都需要一定的信息。此限制以某种方式与您要探索的“噪音”级别(即非信息内容的级别)有关的“大小”相关。
在高维中,如果您具有信号稀疏的先验,则可以使用度量来删除(即惩罚)非稀疏矢量,该度量将用稀疏矢量填充空间或使用阈值技术。
框架假设是均值高斯向量ν和对角线协方差σ 我ð(σ是已知的),并且你要测试的简单的假设
(对于给定的 θ ∈ [R Ñ) θ不必事先已知的。
用能量检验统计量。您的直觉当然是,评估范数/能量E n = 1是个好主意你的观察的ξ建立一个测试统计量。实际上可以构造为中心的标准化(下ħ0)版本ŤÑ的能量的ŤÑ=Σ我ξ 2 我 -σ2。这使得临界区域在水平α形式的{ŤÑ≥v1-α}为精心选择的v1-α
测试的力量和尺寸。在这种情况下,很容易就可以显示出以下公式来证明您的测试能力:
ŽÑÈ[Ž]=0V一- [R (ż)=1
这意味着测试的随信号的能量而增加,而降低。实际上讲,这意味着如果您增加问题的大小,但同时又没有增加信号的强度,那么您正在向观察中添加非信息性信息(或者您正在减少信息中有用信息的比例)您有):这就像增加噪音并降低测试的功效(即,您更有可能说什么也没发现,而实际上却有东西)。 Ñ Ñ
进行具有阈值统计的测试。如果信号中没有太多能量,但是如果您知道线性变换可以帮助您将能量集中在信号的一小部分,则可以建立一个测试统计量,该统计量将仅评估小部分的能量信号的一部分。如果事先已知的,其中它被浓缩(例如,你知道有不能在你的信号高的频率),则可以得到与之前的测试功率由少数替换和几乎同样...如果您不事先知道,则必须对其进行估算,这将导致众所周知的阈值测试。‖ θ ‖ 2 2
请注意,此论点正是许多论文(例如
我相信这不是稀疏,而是通常与稀疏数据相关的高维度。但是,当数据非常稀疏时,情况可能更糟。因为这时任何两个对象的距离很可能是其长度的二次均值,或者
如果则该方程很成立。如果您将维数和稀疏度增加到足以容纳几乎所有属性的程度,则差异将很小。
更糟糕的是:如果将向量归一化为长度,那么任何两个对象的欧几里得距离都是可能性很高。
因此,根据经验,要使欧几里得距离可用(我并不是说有用或有意义的),则对象的属性应为非零。那么应该有合理数量的属性,其中因此向量差变得有用。这也适用于任何其他规范引起的差异。因为在上述情况下
我认为这不是使距离函数在很大程度上独立于实际差异或绝对差异收敛到绝对总和的理想行为!
常见的解决方案是使用诸如余弦距离之类的距离。在某些数据上,它们工作得很好。粗略地说,它们只查看两个向量都不为零的属性。在下面的参考中讨论了一种有趣的方法(他们没有发明它,但是我喜欢他们对属性的实验评估)是使用共享的最近邻居。因此,即使向量x和y没有共同的属性,它们也可能具有一些共同的邻居。计算连接两个对象的对象数量与图形距离密切相关。
关于距离函数的讨论很多:
如果您不喜欢科学文章,也可以在Wikipedia: 维度诅咒
我建议先从
余弦距离,不是欧几里得,对于大多数载体的任何数据几乎正交,
0。
要知道为什么,看看
。
如果 0,则减少为
:距离的简陋度量,正如Anony-Mousse指出的那样。
余弦距离等于使用,或将数据投影到单位球体的表面上,因此全部 =1。那么
是一个与普通欧几里得完全不同且通常更好的度量标准。
可能很小,但不会被掩盖。
对于稀疏数据,大多接近0。例如,如果和分别具有100个非零项和900个零,那么它们都将仅在约10个项中都是非零的(如果非零项是随机散布的)。
标准化 / =稀疏数据的速度可能较慢;在scikit-learn中速度很快 。
简介:从余弦距离开始,但是不要期望任何旧数据会产生奇迹。
成功的指标需要评估,调整和领域知识。
稀疏性的公理度量是所谓的计数,该计数对向量中非零项的(有限)个数进行计数。使用此度量,向量和具有相同的稀疏性。绝对不是规范。并且(非常稀疏)具有与相同的范数 ,这是一个非常平坦的非稀疏向量。绝对不一样计数。
该函数既不规范,也不准,是不光滑且不凸的。视域而定,其名称为“ legion”,例如:基数函数,数字度量或仅是简约或稀疏。由于它的使用会导致NP难题,因此通常出于实用目的被认为不实用。
虽然标准距离或规范(如欧几里得距离)是更易处理,其问题之一是它们的 -homogeneity:为。这可能被认为是不直观的,因为标量积不会更改数据条目的比例(为均质的)。
因此,在实践中,有些重新组合为项()的组合,例如套索,山脊或弹性净正则化。所述范数(或曼哈顿距离计程车)或它的平滑替身,是特别有用的。由于E.Candès等人的作品,因此可以解释为什么很好地逼近:几何学解释。其他人 非凸性问题为代价在。
另一个有趣的途径是重新公理稀疏性的概念。N. Hurley等人的最新稀有著作之一是《稀疏比较措施》,该书处理了分布的稀疏性。从六个公理(具有有趣的名字,例如Robin Hood,Scaling,Rise Tide,Clone,Bill Gates和Babies)中,出现了几个稀疏指数:一个基于基尼系数,另一个基于规范比率,尤其是一个以上的比率。两个规范比率,如下所示:
尽管不是凸面的,但在Euclid的《出租车:带平滑正则化的稀疏盲解卷积》中详细介绍了一些收敛性证明和一些历史参考。
关于距离度量在高维空间中的惊人行为的论文讨论了距离度量在高维空间中的行为。
他们采用范数,并提出曼哈顿范数是高维空间中最有效的聚类目的。他们还引入了类似于范式但具有的分数范数。
简而言之,他们表明,对于高维空间,使用欧几里得范数作为默认值可能不是一个好主意。我们通常在这样的空间中几乎没有直觉,并且由于维数而导致的指数爆炸很难用欧几里得距离来考虑。