机器(深度)学习的主要定理是什么?


45

Al Rahimi最近发表了非常挑衅的讲话在NIPS 2017上做,将当前的机器学习与炼金术进行了比较。他的主张之一是,我们需要回到理论发展上,以得到证明基本结果的简单定理。

当他这么说的时候,我开始寻找ML的主要定理,但找不到能很好理解主要结果的参考。所以这是我的问题:ML / DL中当前的主要数学定理(理论)是什么,它们证明了什么?我猜想瓦普尼克的工作会在这里进行。另外,主要的理论开放问题是什么?


3
@Tim该主题类似于stats.stackexchange.com/questions/2379/…(“统计中有哪些大问题?”)。
whuber

2
有点宽。您至少可以指定机器学习的一个子集吗?如果我们将自己局限于深度学习,或者至少限于监督学习,则可以尝试答案。但是,如果您坚持使用“机器学习的数学”之类的方法,那么答案将需要花很多时间才能编写。
DeltaIV

3
鉴于@whuber的示例模拟,我倾向于说这应该作为CW保持开放,尤其是如果它可以限于ML的特定子集(如DeltaV请求的监督学习)时,尤其如此。
gung-恢复莫妮卡

3
@DeltaIV注意标题中有“ Deep”。
变形虫说恢复莫妮卡

4
了解此问题是David Donoho最近举办的一系列讲座的主题:请参阅stats385.github.io
user795305

Answers:


43

正如我在评论中所写的那样,这个问题对我来说似乎太广泛了,但是我将尝试给出一个答案。为了设定一些界限,我将以一些数学作为基础,这是大多数ML的基础,然后集中讨论DL的最新结果。


偏置方差权衡是在无数的书籍,课程,MOOCs,博客,微博等对ML的简称,所以我们不能没有提到它开始:

Ë[ÿ-F^X2|X=X0]=σϵ2+ËF^X0-FX02+Ë[F^X0-ËF^X02]=不可减少的误差+偏差2 +差异

证明在这里:https : //web.stanford.edu/~hastie/ElemStatLearn/


高斯-马尔科夫定理(是的,线性回归仍将是机器学习的重要组成部分,无论是什么:处理它),当线性模型是真实的,对误差项的一些假设是有效的,OLS具有最小的澄清均方误差(在上面的表达式中只是偏压2 +差异)仅在线性模型的无偏线性估计量中。因此,很可能存在具有偏差的线性估计器(或非线性估计器),它们的均方误差比OLS好,因此预期的预测误差也更好。这为所有正则化武器库(岭回归,LASSO,重量衰减等)铺平了道路,这是ML的主力军。这里提供了一个证明(以及无数其他书籍): https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

正如Carlos Cinelli在评论中所指出的,可能与正则化方法的爆炸式发展更相关,而James-Stein定理无疑是更有趣的。考虑ñ独立的,相同的方差但相同的平均高斯随机变量:

X一世|μ一世ñθ一世σ2一世=1个ñ

换言之,我们有一个ñ-分量高斯随机向量Xñθσ2一世。我们有一个来自X的样本X,我们想估计θ。最大似然估计(和也UMVUE)估计量是明显θ中号大号Ë = X。考虑James-Stein估计量Xθθ^中号大号Ë=X

θ^Ĵ小号=1个-ñ-2σ2||X||2X

显然,如果ñ-2σ2||X||2θ Ĵ 小号收缩接近零的MLE估计。在詹姆斯斯坦定理指出,对于Ñ 4θ Ĵ 小号严格占优势θ中号大号ë,即,其具有更低的MSE ∀ θ。Pheraps奇怪的是,即使我们对任何其他不变收缩Ç 0 θ^Ĵ小号 ñ4θ^Ĵ小号 θ^中号大号Ë θC0θ^Ĵ小号仍然占主导地位 θ中号大号ë。由于Xi是独立的,因此似乎很奇怪,当试图估计三个无关的人的身高时,包括从西班牙生产的苹果数量中抽取的样本,可能会平均改善我们的估计。这里的关键点是“平均”:用于同时估计参数矢量的所有分量的均方误差较小,但是一个或多个分量的均方误差可能会更大,实际上,通常是你有“极端”的观察。 θ^中号大号ËX一世

发现确实是单变量估计案例的“最佳”估计器的MLE在多变量估计中被废th了,这在当时是很震惊的,并且引起了人们对收缩的极大兴趣,在ML术语中被称为正则化。人们可能会注意到混合模型和“借贷强度”的概念有一些相似之处:的确存在某种联系,如此处所述

关于收缩的统一观点:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?

参考:James,W.,Stein,C.,带二次损失的估计。第四届伯克利数学统计和概率研讨会论文集,第1卷:对统计理论的贡献,361--379,加利福尼亚大学出版社,加利福尼亚州伯克利,1961年


主成分分析是降维重要主题的关键,它基于奇异值分解:对于每个ñ×p实矩阵X(尽管该定理很容易推广为复数矩阵),我们可以编写

X=üdVŤ

其中大小为N × p的ü是正交的,D是具有非负对角元素的p × p对角矩阵,大小为p × p的U又是正交的。有关如何计算的证明和算法,请参见:Golub,G.和Van Loan,C.(1983),《矩阵计算》,约翰·霍普金斯大学出版社,巴尔的摩。ñ×pdp×püp×p


默瑟定理是许多不同ML方法的奠基石:薄板样条,支持向量机,高斯随机过程的Kriging估计等。基本上,这是所谓的核技巧背后的两个定理之一。令ķXÿ[一种b]×[一种b][R是对称连续函数或核。如果ķ是正半定值,则它接受与非负特征值相对应的特征函数的正交基础:

ķXÿ=一世=1个γ一世ϕ一世Xϕ一世ÿ

该定理对ML理论的重要性通过其在著名著作中获得的参考文献的数量得到证明,例如在高斯过程中的Rasmussen&Williams著作

参考:J. Mercer,正负类型的函数及其与积分方程理论的联系。伦敦皇家学会的哲学著作。系列A,包含数学或物理特性的论文,209:415-446,1909年

1982年在波士顿皮特曼的线性积分算子 KonradJörgens上也做了一个简单的介绍。


另外定理,它与美世的定理一起,勾画出核技巧的理论基础,是代者定理。假设您有一个样本空间X和一个对称的正半定核ķX×X[R。同样让Hķ为与ķ相关的RKHS 。最后,令小号={X一世ÿ一世}一世=1个ñ为训练样本。该定理说,所有功能中FHķ,由于美世定理,它们都接受了ķ的本征函数的无穷表示,使得正则化风险最小的那个总是在ñ训练点所评估的核形成的基础上具有有限的表示,即

FHķ一世=1个ñ大号ÿ一世FX一世+λ||F||Hķ2={CĴ}1个一世=1个ñ大号ÿ一世ĴCĴϕĴX一世+λĴCĴ2γĴ=一世=1个ñα一世ķXX一世

(定理是最后的等式)。参考文献:Wahba,G.,1990,《观测数据的样条模型》,SIAM,费城。


通用逼近定理已经被用户托比亚斯WINDISCH已经被引用,是机器学习更相关的比它的功能分析,即使它可能不会看起来那么乍一看。问题在于该定理只说存在这样的网络,但是:

  • 它在隐藏层的大小ñ和目标函数FX的复杂程度之间没有任何关联,例如Total Variation。如果FX=ωX[02π][-1个1个]ñ所需的固定误差ϵ growed指数地ω,那么单个隐藏层神经网络将是无用的。
  • 它并没有说网络FX是否可以学习。换句话说,假定给定Fϵ,我们知道大小ñ NN将以超立方体中的所需公差近似于F。然后,通过使用大小为中号训练集 和学习程序(例如反向道具),我们是否可以保证通过增加中号可以恢复F
  • 最后,更糟糕的是,它并没有说明神经网络的预测误差。我们真正感兴趣的是对预测误差的估计,至少对所有大小为中号训练集取平均值。该定理在这方面没有帮助。

Hornik版本的该定理的一个较小的痛点是它不适用于ReLU激活函数。但是,巴特利特(Bartlett)从那以后证明了扩展版本可以弥补这一空白。


到目前为止,我想我所考虑的所有定理都是众所周知的。现在是时候玩有趣的东西了:-)让我们看看一些深度学习定理:

假设:

  • 深层的神经网络ΦXw ^(对于固定w ^Φw ^X是神经网络的输入端与它的输出端相关联的功能)和正则化损失Θw ^是两个和正齐次函数相同程度
  • 在紧集S中,损失函数大号ÿΦXw ^是凸的,一旦在X小号

然后:

  • 任何局部最小值为大号ÿΦXw ^+λΘw ^,使得一个子网络ΦXw ^具有零个权重,是一个全局最小值(定理1
  • 超过临界网络大小时,本地下降将始终通过任何初始化收敛到全局最小值(定理2)。

这是非常有趣的:仅由卷积层,ReLU,最大池,完全连接的ReLU和线性层组成的CNN是正均匀的函数,而如果我们包括S形激活函数,则不再适用,这可以部分解释其优越性。在Sigmoid的ReLU + max pooling的某些应用中的性能。而且,仅当Θ在与Φ相同度的w ^中也为正齐次时,定理成立。现在,有趣的事实是 l 1l 2正则化虽然是正均匀的,但没有相同的Φ度(ΦΦ1个2ΦΦ在前面提到的简单CNN情况下,随着层数的增加而增加。取而代之的是,更现代的正则化方法(例如批归一化和path-SGD)确实对应于与Φ具有相同程度的正齐次正则化函数,并且在不完全适合此框架的情况下,辍学与它具有很强的相似性。这可能解释了为什么要获得CNN的高精度,1个2正则化是不够的,但是我们需要采用各种有害的技巧,例如辍学和批处理归一化!就我所知,这与批标准化的有效性的解释最接近,否则就很难理解,正如Al Rahimi在其讲话中正确指出的那样。

有人根据定理1得出的另一个结论是,即使在神经元死亡的问题上,它也可以解释为什么ReLU效果很好。根据这种直觉,在训练过程中,一些ReLU神经元“死亡”(去零激活,然后再也无法恢复,因为对于X<0,ReLU的梯度为零),这一事实是“一个特征,而不是一个错误” “,因为如果我们达到了最小值并且整个子网络都消失了,那么我们就可以证明达到了全局最小值(在定理1的假设下))。我可能会遗漏一些东西,但是我认为这种解释是牵强的。首先,在培训过程中,ReLU可以在我们达到本地最低要求之前“死亡”。其次,必须证明,当ReLU单元“死亡”时,它们总是在一个完整的子网络上完成:唯一确实如此的情况是只有一个隐藏层,在这种情况下,每个单个神经元都是子网。但总的来说,我会非常谨慎地将“死神经元”视为一件好事。

参考文献:

B.Haeffele和R.Vidal,《神经网络培训中的全局最优性》,在IEEE计算机视觉和模式识别会议上,2017年。

B. Haeffele和R. Vidal。张量分解,深度学习及其他方面的全局最优,arXiv,abs / 1506.07540,2015。


图像分类需要学习表示,这些表示对于自然图像中通常存在但不包含信息的各种变换(例如位置,姿势,视点,照明,表情等)是不变的(或至少是鲁棒的,即非常弱敏感)。用于分类任务。语音识别也是一样:音调,音量,速度,口音的变化。等不应该导致单词分类的变化。CNN中使用的诸如卷积,最大池化,平均池化等操作正是有这个目标的,因此直观地我们期望它们将对这些应用程序有效。但是我们是否有定理支持这种直觉?有一个垂直平移不变性定理,尽管名称如此,但与垂直方向的平移无关,但这基本上是一个结果,即随着层数的增加,在随后的层中学习的特征变得越来越不变。这与较旧的水平平移不变性定理相反,后者适用于散射网络,但不适用于CNN。该定理是非常技术性的,但是:

  • 假设F(您的输入图像)是平方可积的
  • 假定您的过滤器与翻译运算符ŤŤ换向,翻译运算符T t将输入图像F映射到自身ŤŤF的翻译副本。一个有学问的卷积核(过滤器)满足了这个假设。
  • 假设网络中的所有滤波器,非线性和池化都满足所谓的弱可容许性条件,这基本上是某种弱规则性和有界条件。这些条件可以通过学习的卷积核(只要在每层上执行一些归一化操作),ReLU,Sigmoid,tanh等,非线性以及平均池来满足,但不能通过最大池来满足。因此,它涵盖了某些(并非全部)现实世界的CNN架构。
  • 最终假定每个层ñ的合并因子小号ñ>1个,即在每个层中应用合并并有效地丢弃信息。条件小号ñ1个也就够了定理的较弱的版本。

指示与ΦñF层的输出ñ的CNN的,当输入是F。然后最后:

ñ|||ΦñŤFF-ΦñF|||=0

(三重条形不是错误),这基本上意味着每一层都学习越来越不变的特征,并且在无限深的网络的限制下,我们拥有完美不变的体系结构。由于CNN的层数有限,因此它们并不是完全平移不变的,这是从业人员众所周知的。

参考:T. Wiatowski和H. Bolcskei,用于特征提取的深度卷积神经网络的数学理论,arXiv:1512.06293v3


总而言之,基于深度神经网络的Vapnik-Chervonkensis维度或Rademacher复杂度的泛化误差的范围随着参数的数量而增加(有些甚至呈指数增长),这意味着它们无法解释DNN为何如此出色地工作实际上,即使参数的数量比训练样本的数量大得多。实际上,VC理论在深度学习中不是很有用。

相反,去年的一些结果将DNN分类器的泛化误差与数量无关,该数量与神经网络的深度和大小无关,但仅取决于训练集的结构和输入空间。在一些漂亮的技术假设在学习过程中,并在训练集和输入空间,但在DNN很少假设(特别是细胞神经网络的完全覆盖),然后用概率至少是1个-δ,我们有

通用电气2日志2ñÿñγ+2日志1个/δ

哪里:

  • 通用电气是泛化误差,定义为预期损失(所有可能的测试点上学习的分类器的平均损失)与经验损失(仅良好训练集误差)之间的差。
  • ñÿ是班数
  • 是训练集的大小
  • ñγ覆盖数的数据的,与输入空间的结构,并在训练集中不同类的点之间的最小分离的量。参考:

J. Sokolic,R。Giryes,G。Sapiro和M. Rodrigues。不变分类器的泛化误差。在AISTATS,2017年


2
+1。很好的答案,最后一部分很有趣。在第一部分中,Mercer定理看起来就像您在上面介绍的SVD一样。
变形虫说恢复莫妮卡

1
@amoeba,您是对的,但是1)并非所有读者都像您一样精通数学,他们会立即认识到SVD,Karhunen-Loeve展开和Mercer定理之间的相似性。另外2)Functional Analysis中的另一个定理比Mercer定理更难解释,而该定理“为”内核技巧提供了“动力”,而我选择不包含它,而且我已经破坏了星期六:-)也许我明天再添加!
DeltaIV '18年

1
高斯·马尔科夫似乎过时了,从未见过任何人在ML社区中关心BLUE。
卡洛斯·辛纳利

2
我同意一般而言,原始(古旧的)参考文献通常具有乏味的符号。就是说,Mercer的论文实际上在这方面令人惊讶地是现代的,而我正是由于这个原因才添加了它。:)(我原来说,这是一个很好的答案,这只是给予好评后,评论)
usεr11852恢复单胞菌说,

2
我在这里喜欢默瑟定理,请不要删除它。为什么不同时拥有两个链接?只需See [here] for a modern exposition为“原始纸” 添加类似,反之亦然。
变形虫说恢复莫妮卡

11

我认为您提到的以下定理在统计学学习中被认为是非常基本的。

定理(Vapnik and Chervonenkis,1971)HX{01个}0-1个

  1. H
  2. H
  3. H

在定量版本中证明:

VN Vapnik和AY Chervonenkis:关于事件相对频率与其概率的一致收敛。概率论及其应用,16(2):264-280,1971。

上面列出的版本以及学习理论的其他结果的很好的说明可以在这里找到

Shalev-Shwartz,Shai和Shai Ben-David。了解机器学习:从理论到算法。剑桥大学出版社,2014年。



4

我最喜欢的一个是卡夫不等式。

C一种={1个}大号C1个大号C2X一种2-大号CX1个

这种不等式将压缩概率密度相关联:给定代码,该代码表示​​的结果的长度就是该代码标识的模型的负对数概率。

此外,用于机器学习的无免费午餐定理具有较不为人所知的无超压缩定理,该定理指出并非所有序列都可以被压缩。


4

我不会称其为主要定理,但我认为以下(有时称为通用逼近定理)是一个有趣的(至少对我来说是令人惊讶的),因为它说明了前馈神经网络的逼近能力。

σF[01个][Rϵ>0ñFñσ作为激活函数,以便

|FX-FX|ϵ
X[01个]

当然,因为这是关于 存在,因此它对从业人员的影响可以忽略不计。

可以在Hornik的《 Muitilayer前馈网络的逼近能力》,《神经网络》 4(2),1991年找到一个证明


5
这个定理有点有趣,因为它不是神经网络特有的。许多其他类的函数共享相似(有时更强)的近似属性。例如,参见Stone-Weierstrass定理。一个更有趣的结果将是在一般框架中神经网络回归的一致性。同样,就网络的复杂性和训练样本的大小而言,平均泛化误差也必须有已知界限。
奥利维尔(Olivier)

1
@奥利维尔:我完全同意。但是,尽管该定理并非专门用于神经网络,但我仍然发现它是陈述,严格的证明及其含意。例如,它说只要您使用具有上述属性的激活函数,网络的近似能力就相同(大致而言)。或者,它说神经网络过分适合修剪,因为您已经可以从一个隐藏层中学到很多东西。
Tobias Windisch

1
FñFË一种[Rññ
DeltaIV

@DeltaIV:我之前的评论的最后一句中有一个错字:“学习”一词实际上应该是“近似值”(否则,我关于“过度拟合”的说法是没有意义的)。谢谢你的提示!
Tobias Windisch

是的,我是从“近似”的角度解释的。我的观点是,即使您知道理论上可以用一个隐藏层NN近似任何函数(在有界超立方体上),但实际上在许多情况下它是没有用的。另一个例子:具有平方指数核的高斯过程具有通用逼近性质,但是它们并没有消除所有其他回归方法,这还因为以下事实:对于某些问题,精确逼近所需的样本数量呈指数增长。
DeltaIV '18年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.