Al Rahimi最近发表了非常挑衅的讲话在NIPS 2017上做,将当前的机器学习与炼金术进行了比较。他的主张之一是,我们需要回到理论发展上,以得到证明基本结果的简单定理。
当他这么说的时候,我开始寻找ML的主要定理,但找不到能很好理解主要结果的参考。所以这是我的问题:ML / DL中当前的主要数学定理(理论)是什么,它们证明了什么?我猜想瓦普尼克的工作会在这里进行。另外,主要的理论开放问题是什么?
Al Rahimi最近发表了非常挑衅的讲话在NIPS 2017上做,将当前的机器学习与炼金术进行了比较。他的主张之一是,我们需要回到理论发展上,以得到证明基本结果的简单定理。
当他这么说的时候,我开始寻找ML的主要定理,但找不到能很好理解主要结果的参考。所以这是我的问题:ML / DL中当前的主要数学定理(理论)是什么,它们证明了什么?我猜想瓦普尼克的工作会在这里进行。另外,主要的理论开放问题是什么?
Answers:
正如我在评论中所写的那样,这个问题对我来说似乎太广泛了,但是我将尝试给出一个答案。为了设定一些界限,我将以一些数学作为基础,这是大多数ML的基础,然后集中讨论DL的最新结果。
该偏置方差权衡是在无数的书籍,课程,MOOCs,博客,微博等对ML的简称,所以我们不能没有提到它开始:
证明在这里:https : //web.stanford.edu/~hastie/ElemStatLearn/
在高斯-马尔科夫定理(是的,线性回归仍将是机器学习的重要组成部分,无论是什么:处理它),当线性模型是真实的,对误差项的一些假设是有效的,OLS具有最小的澄清均方误差(在上面的表达式中只是)仅在线性模型的无偏线性估计量中。因此,很可能存在具有偏差的线性估计器(或非线性估计器),它们的均方误差比OLS好,因此预期的预测误差也更好。这为所有正则化武器库(岭回归,LASSO,重量衰减等)铺平了道路,这是ML的主力军。这里提供了一个证明(以及无数其他书籍): https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
正如Carlos Cinelli在评论中所指出的,可能与正则化方法的爆炸式发展更相关,而James-Stein定理无疑是更有趣的。考虑独立的,相同的方差但不相同的平均高斯随机变量:
换言之,我们有一个分量高斯随机向量。我们有一个来自X的样本,我们想估计θ。最大似然估计(和也UMVUE)估计量是明显θ中号大号Ë = X。考虑James-Stein估计量
显然,如果,θ Ĵ 小号收缩接近零的MLE估计。在詹姆斯斯坦定理指出,对于Ñ ≥ 4,θ Ĵ 小号严格占优势θ中号大号ë,即,其具有更低的MSE ∀ θ。Pheraps奇怪的是,即使我们对任何其他不变收缩Ç ≠ 0 , 仍然占主导地位 θ中号大号ë。由于Xi是独立的,因此似乎很奇怪,当试图估计三个无关的人的身高时,包括从西班牙生产的苹果数量中抽取的样本,可能会平均改善我们的估计。这里的关键点是“平均”:用于同时估计参数矢量的所有分量的均方误差较小,但是一个或多个分量的均方误差可能会更大,实际上,通常是你有“极端”的观察。
发现确实是单变量估计案例的“最佳”估计器的MLE在多变量估计中被废th了,这在当时是很震惊的,并且引起了人们对收缩的极大兴趣,在ML术语中被称为正则化。人们可能会注意到混合模型和“借贷强度”的概念有一些相似之处:的确存在某种联系,如此处所述
关于收缩的统一观点:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?
参考:James,W.,Stein,C.,带二次损失的估计。第四届伯克利数学统计和概率研讨会论文集,第1卷:对统计理论的贡献,361--379,加利福尼亚大学出版社,加利福尼亚州伯克利,1961年
主成分分析是降维重要主题的关键,它基于奇异值分解:对于每个实矩阵(尽管该定理很容易推广为复数矩阵),我们可以编写
其中大小为N × p的是正交的,D是具有非负对角元素的p × p对角矩阵,大小为p × p的U又是正交的。有关如何计算的证明和算法,请参见:Golub,G.和Van Loan,C.(1983),《矩阵计算》,约翰·霍普金斯大学出版社,巴尔的摩。
默瑟定理是许多不同ML方法的奠基石:薄板样条,支持向量机,高斯随机过程的Kriging估计等。基本上,这是所谓的核技巧背后的两个定理之一。令是对称连续函数或核。如果是正半定值,则它接受与非负特征值相对应的特征函数的正交基础:
该定理对ML理论的重要性通过其在著名著作中获得的参考文献的数量得到证明,例如在高斯过程中的Rasmussen&Williams著作。
参考:J. Mercer,正负类型的函数及其与积分方程理论的联系。伦敦皇家学会的哲学著作。系列A,包含数学或物理特性的论文,209:415-446,1909年
1982年在波士顿皮特曼的线性积分算子 KonradJörgens上也做了一个简单的介绍。
另外定理,它与美世的定理一起,勾画出核技巧的理论基础,是代者定理。假设您有一个样本空间和一个对称的正半定核。同样让为与相关的RKHS 。最后,令为训练样本。该定理说,所有功能中,由于美世定理,它们都接受了的本征函数的无穷表示,使得正则化风险最小的那个总是在训练点所评估的核形成的基础上具有有限的表示,即
(定理是最后的等式)。参考文献:Wahba,G.,1990,《观测数据的样条模型》,SIAM,费城。
该通用逼近定理已经被用户托比亚斯WINDISCH已经被引用,是机器学习更相关的比它的功能分析,即使它可能不会看起来那么乍一看。问题在于该定理只说存在这样的网络,但是:
Hornik版本的该定理的一个较小的痛点是它不适用于ReLU激活函数。但是,巴特利特(Bartlett)从那以后证明了扩展版本可以弥补这一空白。
到目前为止,我想我所考虑的所有定理都是众所周知的。现在是时候玩有趣的东西了:-)让我们看看一些深度学习定理:
假设:
然后:
这是非常有趣的:仅由卷积层,ReLU,最大池,完全连接的ReLU和线性层组成的CNN是正均匀的函数,而如果我们包括S形激活函数,则不再适用,这可以部分解释其优越性。在Sigmoid的ReLU + max pooling的某些应用中的性能。而且,仅当在与Φ相同度的中也为正齐次时,定理成立。现在,有趣的事实是 l 1或l 2正则化虽然是正均匀的,但没有相同的Φ度(Φ度在前面提到的简单CNN情况下,随着层数的增加而增加。取而代之的是,更现代的正则化方法(例如批归一化和path-SGD)确实对应于与具有相同程度的正齐次正则化函数,并且在不完全适合此框架的情况下,辍学与它具有很强的相似性。这可能解释了为什么要获得CNN的高精度,和正则化是不够的,但是我们需要采用各种有害的技巧,例如辍学和批处理归一化!就我所知,这与批标准化的有效性的解释最接近,否则就很难理解,正如Al Rahimi在其讲话中正确指出的那样。
有人根据定理1得出的另一个结论是,即使在神经元死亡的问题上,它也可以解释为什么ReLU效果很好。根据这种直觉,在训练过程中,一些ReLU神经元“死亡”(去零激活,然后再也无法恢复,因为对于,ReLU的梯度为零),这一事实是“一个特征,而不是一个错误” “,因为如果我们达到了最小值并且整个子网络都消失了,那么我们就可以证明达到了全局最小值(在定理1的假设下))。我可能会遗漏一些东西,但是我认为这种解释是牵强的。首先,在培训过程中,ReLU可以在我们达到本地最低要求之前“死亡”。其次,必须证明,当ReLU单元“死亡”时,它们总是在一个完整的子网络上完成:唯一确实如此的情况是只有一个隐藏层,在这种情况下,每个单个神经元都是子网。但总的来说,我会非常谨慎地将“死神经元”视为一件好事。
参考文献:
B.Haeffele和R.Vidal,《神经网络培训中的全局最优性》,在IEEE计算机视觉和模式识别会议上,2017年。
B. Haeffele和R. Vidal。张量分解,深度学习及其他方面的全局最优,arXiv,abs / 1506.07540,2015。
图像分类需要学习表示,这些表示对于自然图像中通常存在但不包含信息的各种变换(例如位置,姿势,视点,照明,表情等)是不变的(或至少是鲁棒的,即非常弱敏感)。用于分类任务。语音识别也是一样:音调,音量,速度,口音的变化。等不应该导致单词分类的变化。CNN中使用的诸如卷积,最大池化,平均池化等操作正是有这个目标的,因此直观地我们期望它们将对这些应用程序有效。但是我们是否有定理支持这种直觉?有一个垂直平移不变性定理,尽管名称如此,但与垂直方向的平移无关,但这基本上是一个结果,即随着层数的增加,在随后的层中学习的特征变得越来越不变。这与较旧的水平平移不变性定理相反,后者适用于散射网络,但不适用于CNN。该定理是非常技术性的,但是:
指示与层的输出的CNN的,当输入是。然后最后:
(三重条形不是错误),这基本上意味着每一层都学习越来越不变的特征,并且在无限深的网络的限制下,我们拥有完美不变的体系结构。由于CNN的层数有限,因此它们并不是完全平移不变的,这是从业人员众所周知的。
参考:T. Wiatowski和H. Bolcskei,用于特征提取的深度卷积神经网络的数学理论,arXiv:1512.06293v3。
总而言之,基于深度神经网络的Vapnik-Chervonkensis维度或Rademacher复杂度的泛化误差的范围随着参数的数量而增加(有些甚至呈指数增长),这意味着它们无法解释DNN为何如此出色地工作实际上,即使参数的数量比训练样本的数量大得多。实际上,VC理论在深度学习中不是很有用。
相反,去年的一些结果将DNN分类器的泛化误差与数量无关,该数量与神经网络的深度和大小无关,但仅取决于训练集的结构和输入空间。在一些漂亮的技术假设在学习过程中,并在训练集和输入空间,但在DNN很少假设(特别是细胞神经网络的完全覆盖),然后用概率至少是,我们有
哪里:
J. Sokolic,R。Giryes,G。Sapiro和M. Rodrigues。不变分类器的泛化误差。在AISTATS,2017年
See [here] for a modern exposition
为“原始纸” 添加类似,反之亦然。
内核技巧是一个广泛使用的通用概念,来自关于希尔伯特空间的许多抽象数学。对于我来说,太多的理论无法在此处给出(复制...)答案,但是,如果您略过这一点,则可以很好地了解其严格的基础:
http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf
我不会称其为主要定理,但我认为以下(有时称为通用逼近定理)是一个有趣的(至少对我来说是令人惊讶的),因为它说明了前馈神经网络的逼近能力。
作为激活函数,以便
当然,因为这是关于 存在,因此它对从业人员的影响可以忽略不计。
关于此问题(特别是深度学习而不是一般的机器学习定理)的一篇不错的文章在这里:
https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808
它提供了有关深度神经网络如此概括的能力的主要新兴定理的摘要。