何时在SVD上使用Johnson-Lindenstrauss引理?


12

Johnson-Lindenstrauss引理允许将高维空间中的点表示为低维点。当找到最适合的较低维空间时,一种标准技术是找到奇异值分解,然后采用由最大奇异值生成的子空间。何时在SVD上使用Johnson-Lindenstrauss有兴趣?

Answers:


20

两种方法提供了截然不同的保证。

JL Lemma本质上说:“您给我想要的错误,我会给您一个低维的空间,该空间可以捕捉到该错误的距离”。这也是最坏的成对保证:对于每对点,等等

SVD本质上承诺“您告诉我您要居住在哪个维度,并且我会为您提供最佳嵌入”,其中“最佳”的定义为平均:真实相似度与预计相似度的总误差最小。

因此,从理论上讲,他们解决了非常不同的问题。在实践中,您想要哪个取决于问题的模型,更重要的参数(错误或尺寸)以及所需的保证类型。


有人可以告诉我在(1-eps)| uv | ^ 2 <= | f(u)-f(v)| ^ 2 <=(1 + eps)| uv | ^中如何获得 2(来自en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma)?f()
T ....

2
这是另一个问题。但是,在(非常)简短的情况下,如果采用矩阵并使用从标准法线绘制的条目填充矩阵,则定义为。f x A xAf(x)Ax
Suresh Venkat 2014年

在汉明度量失真的情况下,是否也有针对有限域的JL方案?如果是这样,那么你会在这里?f
T ....

1
对于汉明度量,您不能有效地进行降维。该结构有很大的不同。从非常波折的角度来看,承认JL风格的减少与生活在希尔伯特空间中有关。1
Suresh Venkat 2014年

4

SVD和JL也以不同方式推断未来点。

也就是说,如果您假设数据来自某个基础分布,那么原则上,只要从同一分布中采样,SVD就应对任何将来的点保持“良好”。另一方面,JL的目标尺寸取决于点的数量,这意味着对其他点应用JL变换会增加错误概率。

例如,如果您将降维用作其他算法的预处理步骤,则这变得很重要。训练数据的SVD边界可能会保留在测试数据上,但JL不会。


这是非常好的一点。
Paul Siegel 2014年

3

这是Suresh回答的后续内容-阅读他的回答后,我在Google上做了一些搜索,并得出以下理解。我本来打算将其发布为对他的回答的评论,但是它一直在增加。

请指出答案中的错误,我不是该领域的专家。

从某种意义上说,JL和SVD就像苹果和橘子。

1)他们解决的问题完全不同。一个与成对距离有关,另一个与最佳表示有关。一种是最坏的情况,另一种是一般情况。

(1)argminP{supu,v(|1||PuPv||2||uv||2|)}

(这不准确,我将在以后对此进行更多评论)

SVD正在解决的问题是(给定尺寸)  昏暗k的 k arg min P {平均| | u P u | | 2 }k

argminP of dim k{Avg(||uPu||2)}

2)输入:尽管两种算法都输出子空间,但是它们所需的输入是不同的。JL要求公差(您愿意在实际距离和子空间中的距离之间忍受的最大误差是多少),而SVD要求尺寸数。ϵ

3)JL是非建设性的,SVD是建设性的-这一点有点含糊,因为术语建设性没有得到精确定义。有用于计算SVD的确定性算法,但是用于找到JL空间的算法是随机的-进行随机投影,如果失败,请重试。

4)SVD是唯一的(子空间可能不是唯一的,但是所有子空间的目标值都相同)。上面的等式(1)并不是精确的,因为JL实际上没有谈论最小化成对距离中的差异-它提供了一个较小子空间的存在的保证,该子空间中的距离与实际距离最大为价值观。可能有许多这样的子空间,有些比其他子空间好。ϵ

(请参阅注释以获取有关答案的删除部分的说明)。

编辑:@ john-myles-white写了一篇有关JL的帖子,以验证其主张,并展示如何构建投影:http : //www.johnmyleswhite.com/notebook/2014/03/24/a-note-约翰逊林登施特劳斯引理/


5
您的答案有很多错误。(1)JL具有极强的建设性:构造映射的算法多种多样(2)它不会保留差异,但会保留相对差异(比率)(3)JL引理已被随机化(4)JL可以工作对于任何向量集:构造都独立于实际输入。唯一需要的信息就是向量的数量
Suresh Venkat 2014年

感谢Suresh。除了您的最终建议,我已将所有内容合并。随时进一步编辑答案。最后一点,我很困惑。您是说无论我给您提供哪组矢量,同一张地图都可以使用?
elexhobby

3
这是一个微妙的观点。修正错误和向量数量后,地图上就会有固定的概率分布,它将对任何向量集都具有较高的概率。当然,没有确定性固定的线性映射可以满足此属性。
Sasho Nikolov 2014年

值得一看Olivier Grisel的scikit-learn实现
KLDavenport 2014年

我想补充一点,不仅通常没有构造JL嵌入的确定性算法,而且通常在计算上禁止检查根据JL算法随机生成的矩阵实际上具有“几乎等距”属性(即使它的概率很高)。因此,我认为可以说JL定理不是建设性的。比较算法“选择到之间的随机实数”;这给出了一个概率为的先验数字,但我不会将其视为建设性的。1 1011
Paul Siegel 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.