如何证明流形假设是正确的?


9

在机器学习中,通常假设数据集位于光滑的低维流形上(流形假设),但是有任何方法可以证明假设满足某些条件,则确实(近似)生成了数据集来自低维平滑流形?

例如,给定一个数据序列 {X1Xn} 哪里 XiRd (例如具有不同角度的面部图像序列)和相应的标签序列 {y1yn} 哪里 y1y2yn (说出面部序列的角度)。假设何时XiXi+1 非常接近,他们的标签 yiyi+1 距离也很近,我们可以想象,很可能 {X1Xn}躺在低维流形上。这是真的?如果是这样,我们怎么证明呢?或者该序列需要满足什么条件才能证明流形假设是正确的?

Answers:


10

通过查看有关“流形假设”的许多论述,很快就可以看出,许多作家对其含义特别草率。较为谨慎的定义给它一个微妙但非常重要的警告:数据位于低维流形上或附近

即使是那些不包含“或接近”子句的人,也都清楚地将流形假设作为一种近似的假设,方便进行数学分析,因为它们的应用必须考虑数据和估计的流形之间的偏差。的确,许多作家后来引入了一种明确的偏差机制,例如考虑回归y 反对 x 哪里 x被限制歧管上MkRd 但是 y可能包括随机偏差。 这等效于假设元组(xi,yi)谎言接近,但不一定,浸入k形式的三维流形

(x,f(x))Mk×RRd×RRd+1

对于某些平滑(回归)函数 f:RdR。因为我们可能会看到所有的扰动(x,y)=(x,f(x)+ε),这仅仅是接近的曲线图f (一个 k维流形),卧k+1维歧管 Mk×R,这有助于解释为什么从理论上讲,这种区分“在……上”和“在……上接近”的草率行为可能并不重要。

“开”和“接近”之间的区别对于应用程序非常重要。 “接近”允许数据偏离歧管。这样,如果您选择估计该歧管,则可以量化数据与歧管之间的典型偏差量。当典型的偏差量较小时,一个装配好的歧管将比另一个装配好的歧管

数字

该图显示了数据流形假设的两个版本(蓝色大点):黑色流形相对简单(仅需要四个参数来描述),但仅“接近”数据,而红色虚线流形适合数据完美但很复杂(需要17个参数)。

与所有此类问题一样,在描述歧管的复杂性与拟合优度(过度拟合问题)之间要进行权衡。它是一直的情况下的一维流形可以发现,以适应数据的任何有限的量Rd完美(与图中的红色虚线歧管一样,只需按任意顺序在所有点上绘制一条平滑曲线即可:几乎可以肯定的是,它不会与自身相交,但是如果确实如此,则可以在任何此类交点附近扰动该曲线消除它)。在另一种极端情况下,如果只允许使用一类有限的流形(例如,仅是直的欧几里得超平面),则无论尺寸如何,都不可能实现良好的拟合,并且数据与拟合之间的典型偏差可能很大。

这导致了一种直接,实用的方法来评估流形假设:如果根据流形假设开发的模型/预测器/分类器可以令人满意地工作,则该假设是合理的。因此,在该问题中寻求的适当条件将是,合适度的一些相关度量应小可以接受的程度。(什么措施?取决于问题,并且等于选择损失函数。)

不同尺寸的歧管(在其曲率上具有不同种类的约束)可能可以很好地拟合数据并预测保留的数据。 通常,“底层”流形没有任何“证明”,尤其是在处理大型,混乱的人类数据集时。我们通常所希望的只是装配好的歧管是一个很好的模型。

如果您没有提出好的模型/预测器/分类器,那么流形假设是无效的,您假设流形尺寸过小,或者看起来不够好或不够好。


1
+1非常好。让我补充(不暗示您同意我的观点),这再次表明了为什么多年来统计中已经形成的原则化但又持怀疑态度且往往是尝试性的思维方式对于经常模糊,快速,崭新的新方法非常重要。机器学习和数据科学的玩具世界。
Momo

5

任何有限的点集都可以适合任何流形(需要定理参考,我不记得定理是什么,我只记得uni中的这个事实)。

如果不希望识别所有点,则最小尺寸为1。

举一个简单的例子,给定N 2d个点,存在一些N-1阶多项式,其中所有N个点都位于该多项式上。因此,对于任何2d数据集,我们都有一个1d流形。我认为任意维度的逻辑都是相似的。

因此,这不是问题,真正的假设是关于流形的结构/简单性,尤其是在将连通的黎曼流形视为度量空间时。香港专业教育学院阅读了关于这个多方面的轨迹的论文,并且发现如果您仔细阅读会出现一些相当大的假设!

所做的假设是当假定的“紧密度”的诱导定义是“保留我们数据集中的信息”时,但是由于这在信息理论术语中并未正式定义,因此所得的定义是非常特殊的,确实是一个巨大的假设。特别地,问题似乎在于保留了“接近度”,即两个接近点保持接近,而“远近度”则不保持,因此两个“远”点没有保持远距离。

总而言之,除非机器学习数据集确实是自然的欧几里得,例如视觉模式识别,否则我将非常警惕机器学习中的这种诡计。我认为这些方法不适用于更一般的问题。


谢谢!您的回答帮助我更好地理解了问题。您能推荐一些关于您在这里提到的多重假设的论文吗?
thinkbear 2014年

抱歉,您不记得了,Google应该能够为您提供帮助:)
samthebest 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.