欧氏距离通常不适用于稀疏数据吗？

72

我曾在某处看到，当我们拥有多维和稀疏数据时，经典距离（如欧几里得距离）变得难以区分。为什么？您是否有两个稀疏数据向量的示例，其中欧几里得距离的效果不好？在这种情况下，我们应该使用哪种相似性？

— n
source

1

本文也可能会有所帮助。在本文中，作者解释了高维数据中余弦相似性的问题，并提出了一种新的相似性度量来缓解这一问题。journalofbigdata.springeropen.com/articles/10.1186/...

— 萨哈尔

33

这是一个简单的玩具示例，说明了尺寸问题在辨别问题中的作用，例如，您想说是否观察到某物或仅观察到随机作用时所遇到的问题（此问题在科学上是经典的）。

启发式。 这里的关键问题是，欧几里得准则对任何方向都具有相同的重要性。这构成了缺乏先验的问题，而且正如您肯定在高维度上知道的那样，这里没有免费的午餐（即，如果您对要搜索的内容一无所知，那么就没有理由为什么有些杂音不会像您想要的那样搜索，这就是重言式...）。

我想说的是，对于任何问题，找到噪声以外的东西都需要一定的信息。此限制以某种方式与您要探索的“噪音”级别（即非信息内容的级别）有关的“大小”相关。

在高维中，如果您具有信号稀疏的先验，则可以使用度量来删除（即惩罚）非稀疏矢量，该度量将用稀疏矢量填充空间或使用阈值技术。

框架假设是均值高斯向量和对角线协方差（是已知的），并且你要测试的简单的假设 $\xi$ $\nu$ $\sigma Id$ $\sigma$

（对于给定的）不必事先已知的。

H_{0} : ν = 0, V s H_{θ} : ν = θ

$H_0: \;\nu=0,\; Vs \; H_{\theta}: \; \nu=\theta$

θ \in R^{n}

$\theta\in \mathbb{R}^n$

θ

$\theta$

用能量检验统计量。您的直觉当然是，评估范数/能量是个好主意你的观察的建立一个测试统计量。实际上可以构造为中心的标准化（下）版本的能量的 $\mathcal{E}_n=\frac{1}{n}\sum_{i=1}^n\xi_i^2$ $\xi$ $H_0$ $T_n$ 。这使得临界区域在水平形式的为精心选择的 $T_n=\frac{\sum_i\xi_i^2-\sigma^2}{\sqrt{2n\sigma^4}}$ $\alpha$ $\{T_n\geq v_{1-\alpha}\}$ $v_{1-\alpha}$

测试的力量和尺寸。在这种情况下，很容易就可以显示出以下公式来证明您的测试能力：

$P_{θ} (T \leq v_{1 - α}) = P (Z \leq \frac{v_{1 - α}}{\sqrt{1 + 2 ‖ θ ‖_{2}^{2} / (n σ^{2})}} - \frac{‖ θ ‖_{2}^{2}}{\sqrt{2 n σ^{4} + 2 σ^{2} ‖ θ ‖_{2}^{2} / (n σ^{2})}})$ $P_{\theta}(T\leq v_{1-\alpha})=P\left (Z\leq \frac{v_{1-\alpha}}{\sqrt{1+2\|\theta\|_2^2/(n\sigma^2)}}-\frac{\|\theta\|^2_2}{\sqrt{2n\sigma^4+2\sigma^2\|\theta\|_2^2/(n\sigma^2)}}\right )$ $Z$ $n$ $\mathbb{E}[Z]=0$ $Var(Z)=1$

这意味着测试的随信号的能量而增加，而降低。实际上讲，这意味着如果您增加问题的大小，但同时又没有增加信号的强度，那么您正在向观察中添加非信息性信息（或者您正在减少信息中有用信息的比例）您有）：这就像增加噪音并降低测试的功效（即，您更有可能说什么也没发现，而实际上却有东西）。 $\|\theta\|^2_2$ $n$ $n$

进行具有阈值统计的测试。如果信号中没有太多能量，但是如果您知道线性变换可以帮助您将能量集中在信号的一小部分，则可以建立一个测试统计量，该统计量将仅评估小部分的能量信号的一部分。如果事先已知的，其中它被浓缩（例如，你知道有不能在你的信号高的频率），则可以得到与之前的测试功率由少数替换和几乎同样...如果您不事先知道，则必须对其进行估算，这将导致众所周知的阈值测试。 $n$ $\|\theta\|^2_2$

请注意，此论点正是许多论文（例如

A Antoniadis，F Abramovich，T Sapatinas和B Vidakovic。用于方差模型功能分析的小波方法。国际小波及其应用学报，93：1007-1102，2004年。
MV Burnashef和Begmatov。关于信号检测导致稳定分布的问题。概率论及其应用，35（3）：556-560，1990年。
Y. Baraud。信号检测中的非渐近最小最大测试速率。Bernoulli，8：577-606，2002。
范范基于小波阈值和尼曼截断的显着性检验。JASA，91：674-688，1996。
J. Fan和SK Lin。数据为曲线时的显着性检验。JASA，93：1007-1102，1998。
V. Spokoiny。使用小波的适应性假设检验。统计年鉴，1996年12月24（6）：2477-2498。

— 罗宾·吉拉德
source

51

我相信这不是稀疏，而是通常与稀疏数据相关的高维度。但是，当数据非常稀疏时，情况可能更糟。因为这时任何两个对象的距离很可能是其长度的二次均值，或者

lim_{d i m \to \infty} d (x, y) = | | x - y | | \to_{p} \sqrt{| | x | |^{2} + | | y | |^{2}}

$\lim_{dim\rightarrow\infty}d(x,y) = ||x-y|| \rightarrow_p \sqrt{||x||^2 + ||y||^2}$

如果则该方程很成立。如果您将维数和稀疏度增加到足以容纳几乎所有属性的程度，则差异将很小。 $\forall_i x_i=0 \vee y_i=0$

更糟糕的是：如果将向量归一化为长度，那么任何两个对象的欧几里得距离都是可能性很高。 $||x||=1$ $\sqrt{2}$

因此，根据经验，要使欧几里得距离可用（我并不是说有用或有意义的），则对象的属性应为非零。那么应该有合理数量的属性，其中因此向量差变得有用。这也适用于任何其他规范引起的差异。因为在上述情况下 $3/4$ $|y_i| \neq |x_i-y_i| \neq |x_i|$ $|x-y| \rightarrow_p |x + y|$

我认为这不是使距离函数在很大程度上独立于实际差异或绝对差异收敛到绝对总和的理想行为！

常见的解决方案是使用诸如余弦距离之类的距离。在某些数据上，它们工作得很好。粗略地说，它们只查看两个向量都不为零的属性。在下面的参考中讨论了一种有趣的方法（他们没有发明它，但是我喜欢他们对属性的实验评估）是使用共享的最近邻居。因此，即使向量x和y没有共同的属性，它们也可能具有一些共同的邻居。计算连接两个对象的对象数量与图形距离密切相关。

关于距离函数的讨论很多：

邻居的距离可以克服维数的诅咒吗？
ME Houle，H.-P. Kriegel，P.Kröger，
E.Schubert 和A.Zimek SSDBM 2010

如果您不喜欢科学文章，也可以在Wikipedia：维度诅咒

— Anony-Mousse
source

2

有趣的论文。还有一种与此相似性度量相关的聚类算法。可以以某种方式在有效的Mercer内核中表示共享的最近邻居吗？

— Seeda

如果我还记得的话，它们对应于空间中的欧几里得。然后是的，它们产生了一个不错的内核。

R^{n}

$R^{n}$

— Anony-Mousse

44

我建议先从余弦距离，不是欧几里得，对于大多数载体的任何数据几乎正交， 0。要知道为什么，看看。如果 0，则减少为：距离的简陋度量，正如Anony-Mousse指出的那样。 $x \cdot y \approx$
$|x - y|^2 = |x|^2 + |y|^2 - 2\ x \cdot y$
$x \cdot y \approx$ $|x|^2 + |y|^2$

余弦距离等于使用，或将数据投影到单位球体的表面上，因此全部 =1。那么是一个与普通欧几里得完全不同且通常更好的度量标准。可能很小，但不会被掩盖。 $x / |x|$ $|x|$ $|x - y|^2 = 2 - 2\ x \cdot y$
$x \cdot y$ $|x|^2 + |y|^2$

$x \cdot y$ 对于稀疏数据，大多接近0。例如，如果和分别具有100个非零项和900个零，那么它们都将仅在约10个项中都是非零的（如果非零项是随机散布的）。 $x$ $y$

标准化 / =稀疏数据的速度可能较慢；在scikit-learn中速度很快。 $x$ $|x|$

简介：从余弦距离开始，但是不要期望任何旧数据会产生奇迹。
成功的指标需要评估，调整和领域知识。

— 丹尼斯
source

1

+1这为其他答案添加了周到且有用的分析。

— ub

1

对于大在中随机放置的点的平均角度始终接近90° （请参见此处的图）

[- 1, 1]^{n}

$[-1, 1]^n$

n

$n$

— Martin Thoma

10

维度诅咒的一部分是数据开始从中心散开。对于多元法线，甚至当分量为IID（球面法线）时，也是如此。但是，如果数据具有相关结构，即使在低维空间中也要严格讲欧几里德距离，欧几里德距离不是合适的指标。如果我们假设数据是带有一些非零协方差的多元正态，并且出于争论的目的，假设协方差矩阵是已知的。那么，马氏距离是合适的距离量度，它与欧氏距离不同，欧氏距离只有在协方差矩阵与恒等矩阵成比例的情况下才会减小。

— 迈克尔·切尼克
source

1

当数据相关时，感谢马氏距离代替欧几里得距离的建议。您能否详细说明为什么欧几里得距离不处理相关数据以及马氏距离呢？

— 2015年

5

我认为这与维度/度量集中度的诅咒有关，但是我再也找不到找到激发这一观点的讨论了。我相信metaoptimize上有一个话题，但是我没能在Google上找到它。

对于文本数据，使用TF-IDF归一化向量，然后应用余弦相似度可能会比欧几里得距离产生更好的结果，因为长文档（包含多个单词）可以共享相同的主题，因此与共享大量通用文档的短文档非常相似话。在特定情况下，丢弃向量的范数会有所帮助。

— 奥格里塞尔
source

4

稀疏性的公理度量是所谓的计数，该计数对向量中非零项的（有限）个数进行计数。使用此度量，向量和具有相同的稀疏性。绝对不是规范。并且（非常稀疏）具有与相同的范数，这是一个非常平坦的非稀疏向量。绝对不一样计数。 $\ell_0$ $(1,0,0,0)$ $(0,21,0,0)$ $\ell_2$ $(1,0,0,0)$ $\ell_2$ $\left(\frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4}\right)$ $\ell_0$

该函数既不规范，也不准，是不光滑且不凸的。视域而定，其名称为“ legion”，例如：基数函数，数字度量或仅是简约或稀疏。由于它的使用会导致NP难题，因此通常出于实用目的被认为不实用。

虽然标准距离或规范（如欧几里得距离）是更易处理，其问题之一是它们的 -homogeneity：为。这可能被认为是不直观的，因为标量积不会更改数据条目的比例（为均质的）。 $\ell_2$ $1$

‖ a . x ‖ = | a | ‖ x ‖

$\| a.x\| = |a|\| x\|$

a \neq 0

$a\neq 0$

ℓ_{0}

$\ell_0$

0

$0$

因此，在实践中，有些重新组合为项（）的组合，例如套索，山脊或弹性净正则化。所述范数（或曼哈顿距离计程车）或它的平滑替身，是特别有用的。由于E.Candès等人的作品，因此可以解释为什么很好地逼近：几何学解释。其他人非凸性问题为代价在。 $\ell_p(x)$ $p \ge1$ $\ell_1$ $\ell_1$ $\ell_0$ $p < 1$ $\ell_p(x)$

另一个有趣的途径是重新公理稀疏性的概念。N. Hurley等人的最新稀有著作之一是《稀疏比较措施》，该书处理了分布的稀疏性。从六个公理（具有有趣的名字，例如Robin Hood，Scaling，Rise Tide，Clone，Bill Gates和Babies）中，出现了几个稀疏指数：一个基于基尼系数，另一个基于规范比率，尤其是一个以上的比率。两个规范比率，如下所示： $\frac{\ell_1}{\ell_2}$

尽管不是凸面的，但在Euclid的《出租车：带平滑正则化的稀疏盲解卷积》 $\frac{\ell _1}{\ell_2}$ 中详细介绍了一些收敛性证明和一些历史参考。

— 劳伦·杜瓦尔（Laurent Duval）
source

4

关于距离度量在高维空间中的惊人行为的论文讨论了距离度量在高维空间中的行为。

他们采用范数，并提出曼哈顿范数是高维空间中最有效的聚类目的。他们还引入了类似于范式但具有的分数范数。 $L_k$ $L_1$ $L_f$ $L_k$ $f \in (0..1)$

简而言之，他们表明，对于高维空间，使用欧几里得范数作为默认值可能不是一个好主意。我们通常在这样的空间中几乎没有直觉，并且由于维数而导致的指数爆炸很难用欧几里得距离来考虑。

— facuq
source

1

好。该为是准规范，而不是规范。

L_{f}

$L_f$

0 < f < 1

$0<f<1$

— Laurent Duval '18