Answers:
通过查看有关“流形假设”的许多论述,很快就可以看出,许多作家对其含义特别草率。较为谨慎的定义给它一个微妙但非常重要的警告:数据位于低维流形上或附近。
即使是那些不包含“或接近”子句的人,也都清楚地将流形假设作为一种近似的假设,方便进行数学分析,因为它们的应用必须考虑数据和估计的流形之间的偏差。的确,许多作家后来引入了一种明确的偏差机制,例如考虑回归 反对 哪里 被限制在歧管上 但是 可能包括随机偏差。 这等效于假设元组谎言接近,但不一定,浸入形式的三维流形
对于某些平滑(回归)函数 。因为我们可能会看到所有的扰动点,这仅仅是接近的曲线图 (一个 维流形),卧上的维歧管 ,这有助于解释为什么从理论上讲,这种区分“在……上”和“在……上接近”的草率行为可能并不重要。
“开”和“接近”之间的区别对于应用程序非常重要。 “接近”允许数据偏离歧管。这样,如果您选择估计该歧管,则可以量化数据与歧管之间的典型偏差量。当典型的偏差量较小时,一个装配好的歧管将比另一个装配好的歧管。
该图显示了数据流形假设的两个版本(蓝色大点):黑色流形相对简单(仅需要四个参数来描述),但仅“接近”数据,而红色虚线流形适合数据完美但很复杂(需要17个参数)。
与所有此类问题一样,在描述歧管的复杂性与拟合优度(过度拟合问题)之间要进行权衡。它是一直的情况下的一维流形可以发现,以适应数据的任何有限的量完美(与图中的红色虚线歧管一样,只需按任意顺序在所有点上绘制一条平滑曲线即可:几乎可以肯定的是,它不会与自身相交,但是如果确实如此,则可以在任何此类交点附近扰动该曲线消除它)。在另一种极端情况下,如果只允许使用一类有限的流形(例如,仅是直的欧几里得超平面),则无论尺寸如何,都不可能实现良好的拟合,并且数据与拟合之间的典型偏差可能很大。
这导致了一种直接,实用的方法来评估流形假设:如果根据流形假设开发的模型/预测器/分类器可以令人满意地工作,则该假设是合理的。因此,在该问题中寻求的适当条件将是,合适度的一些相关度量应小到可以接受的程度。(什么措施?取决于问题,并且等于选择损失函数。)
不同尺寸的歧管(在其曲率上具有不同种类的约束)可能可以很好地拟合数据并预测保留的数据。 通常,“底层”流形没有任何“证明”,尤其是在处理大型,混乱的人类数据集时。我们通常所希望的只是装配好的歧管是一个很好的模型。
如果您没有提出好的模型/预测器/分类器,那么流形假设是无效的,您假设流形尺寸过小,或者看起来不够好或不够好。
任何有限的点集都可以适合任何流形(需要定理参考,我不记得定理是什么,我只记得uni中的这个事实)。
如果不希望识别所有点,则最小尺寸为1。
举一个简单的例子,给定N 2d个点,存在一些N-1阶多项式,其中所有N个点都位于该多项式上。因此,对于任何2d数据集,我们都有一个1d流形。我认为任意维度的逻辑都是相似的。
因此,这不是问题,真正的假设是关于流形的结构/简单性,尤其是在将连通的黎曼流形视为度量空间时。香港专业教育学院阅读了关于这个多方面的轨迹的论文,并且发现如果您仔细阅读会出现一些相当大的假设!
所做的假设是当假定的“紧密度”的诱导定义是“保留我们数据集中的信息”时,但是由于这在信息理论术语中并未正式定义,因此所得的定义是非常特殊的,确实是一个巨大的假设。特别地,问题似乎在于保留了“接近度”,即两个接近点保持接近,而“远近度”则不保持,因此两个“远”点没有保持远距离。
总而言之,除非机器学习数据集确实是自然的欧几里得,例如视觉模式识别,否则我将非常警惕机器学习中的这种诡计。我认为这些方法不适用于更一般的问题。