人工神经网络背后的理论结果


13

我刚刚在Coursera的机器学习课程中介绍了人工神经网络,我想了解它们背​​后的更多理论。我发现他们模仿生物学的动机有些不尽人意。

从表面上看,似乎在每个级别上我们都用线性组合替换了协变量。通过反复执行,我们可以进行非线性模型拟合。这就引出了一个问题:为什么有时有时只用神经网络来拟合非线性模型就更好了。

更笼统地说,我想知道人工神经网络如何适合贝叶斯推理框架,这在ET Jaynes的书“概率论:科学逻辑”中有详细描述。或者,简单地说,为什么人工神经网络工作时会起作用?并且,当然,他们做出成功的预测意味着他们遵循了上述框架。

Answers:


16

摘自ET Jaynes的“ 对未来的展望 ”。

新饰品

近年来,发明直观的设备而不是吸引任何连接的理论原理的正统习惯已经以一种新的方式扩展到了新的问题,使得首先看起来已经创建了几个新的科学领域。然而,他们所有人都担心信息不全的推理。并且我们相信我们有定理将概率论作为逻辑确定为处理所有此类问题的通用方法。我们注意到三个例子。

对于任何经过贝叶斯推理训练的人来说,很明显,模糊集是对贝叶斯先验概率的粗略近似。之所以创建它们,是因为其从业者坚持按照自然界中存在但从未明确定义的“随机性”来思考概率。因此得出结论,概率论不适用于此类问题。一旦人们认识到概率是指定不完整​​信息的一般方法,引入模糊集的原因就消失了。

同样,大部分人工智能(AI)都是用于从不完整信息中进行推理的直观设备的集合,这些信息与早期的正统统计信息一样,是贝叶斯方法的近似值,并且可用于某些受限的问题类别。但是当我们尝试将其应用于该类之外的问题时,这会得出荒谬的结论。再次,它的实践者陷入困境仅仅是因为他们继续认为概率代表的是物理上的“随机性”,而不是不完整的信息。在贝叶斯推理中,所有这些结果都被自动包含,而不是琐碎地包含在内,而没有任何局限性。

伟大的新发展是神经网络,它是一种具有人类人类大脑一样具有自适应性的算法,具有奇妙的新特性,因此他们可以从过去的错误中学习并自动纠正自己(哇!这真是个很棒的新主意!) 。的确,看到神经网络在许多应用中实际上非常有用,我们并不感到惊讶。比模糊集或AI更重要。然而,目前的神经网络有两个实际的缺点。(a)他们产生的产出是由目前的投入加上过去的培训信息决定的。这个输出确实是一个估计根据手头的所有信息做出的正确反应,但是它没有表明其准确性,因此也没有告诉我们我们离目标有多近(也就是说,需要多少培训);(b)当需要非线性响应时,人们会诉诸内部存储的标准“ S型”非线性函数,该函数在进行各种放大和线性混合后可以在某种程度上近似于真正的非线性函数。(注意:重点是我的。)

但是,我们真的需要指出:(1)从定义上说,任何自适应的程序都是考虑不完整信息的一种手段;(2)贝叶斯定理恰恰是所有适应性程序之母;更新任何知识状态以考虑新信息的一般规则;(3)当这些问题用贝叶斯(Bayesian)术语表示时,一次计算会自动获得最佳估计值和准确性。(4)如果需要非线性,则贝叶斯定理会自动生成问题所要求的确切非线性函数,而不是尝试通过另一个临时设备构造一个近似非线性函数。

换句话说,我们认为这些根本不是新领域。只有错误的开始。如果一个人通过标准贝叶斯公式来解决所有这些问题,那么一个人就会自动以改进的形式获得所有有用的结果。人们似乎在理解这一点时遇到的困难,都是相同的未能抽象化抽象数学与现实世界之间关系的例子。一旦我们认识到概率并不能描述现实-仅描述了我们有关现实的信息-就可以从该信息中对推理问题的最佳解决方案敞开大门。

一些评论:

  1. (a)点忽略了贝叶斯神经网络的发展,贝叶斯神经网络的发展始于八十年代末和九十年代初(但请注意,Jaynes的论文是在1993年撰写的)。看一下这篇文章。另外,考虑阅读Yarin Gal的精美博士学位论文,并观看Zoubin Ghahramani的精彩演讲

  2. 我不认为(b)点可能是“缺点”。实际上,这就是为什么神经网络可以很好地近似一大类功能的本质。请注意,最近成功的体系结构在内部层中从S型激活转移到ReLU激活,与“宽度”相比,更倾向于“深度”。最近已经证明了ReLU网络的逼近定理。


2
+1最令人满足的莫过于准确地知道在哪里可以找到答案的准确正确的参考。
Sycorax说要

5
鉴于这些临时设备证明了它们在许多情况下都可以工作,因此证明(或证明)它们仅适用于贝叶斯框架会有所帮助,因此,对这些附件已被广泛部署的附件有更深入的了解。天。这是我感兴趣的工作种类。
汤姆Artiom Fiodorov

1

首先,我们不相互堆叠线性函数以获得非线性函数。NN可能永远不会那样工作的原因很明确:将线性函数相互堆叠会再次产生线性函数。

使NN非线性的是线性函数后面的激活函数!但是,原则上您是对的:我们只是相互堆叠了很多逻辑回归(虽然不是线性的!)……tadaa:我们从中得到了好处……这公平吗?事实证明,从理论上讲,这实际上是公平的。更糟糕的是:使用Stone-Weierstrass著名的著名定理,我们简单地证明了仅具有一个隐藏层并且在最终节点处没有输出函数的神经网络足以逼近任何连续函数(相信我,连续函数可能很难看。野兽,请参阅“魔鬼阶梯”:https : //en.wikipedia.org/wiki/Cantor_distribution[a,b]x↦=b+a1ϕ1(x)+...+alϕl(x)l

那为什么要使用深度神经网络呢? 原因是上面的SW定理仅保证有足够大的层大小,以便我们可以接近(希望是连续的)目标函数。但是,所需的层大小可能太大,以至于没有计算机能够处理该大小的重量矩阵。具有更多隐藏层的NN似乎是“准确性”和可计算性之间的良好折衷。我不知道有任何理论结果表明,与增加单个隐藏层的大小相比,放置更多隐藏层时,NN的表达能力会增长“多少”的方向,但也许网络上有一些资源...

我们能真正理解深度神经网络吗? 问题示例:为什么当神经网络预测另一种类似情况为FALSE时,神经网络为何准确地预测这种情况为TRUE?为什么要准确地评价此客户比其他客户更有价值?我不是很相信。该模型具有复杂性,您无法再对其进行合理的解释了……我只听说这仍然是一个活跃的研究领域,但我不知道任何资源……

是什么使NN在所有模型中如此独特? 这些天我们这么多使用NN的真正原因是由于以下两个原因:

  1. 它们具有自然的“流式”属性。
  2. 我们可以在多个方向上将它们最大化。

TfTTT等)基于此属性。人们试图将这种流媒体属性注入其他模型(例如Gradient Boosting),但它并非自然而然,并且在计算上不如NN设置便宜。

乘2。我的意思是人们已经训练过NN来做最奇怪的事情,但是原则上他们只是使用相同的框架:将平滑的函数相互堆叠,然后让计算机(即PyTorch / Tensorflow)为您做脏的数学运算权重的损失函数的导数。一个例子就是这篇论文人们不仅使用RL方法,而且还通过讲授NN如何在内存堆栈上操作来学习化学物质的复杂语言,构造了NN的体系结构(!)。尝试通过梯度增强来做到这一点;-)之所以必须这样做,是因为化学语言至少与括号内的语言“一样难以学习”(即,每个开头的括号后面都有一个闭合的括号) ),因为人们用来描述分子的SMILES语言包含符号“(”和“)”。从理论计算机科学(Chomsky层次结构)开始,人们知道不能用常规自动机来描述这种语言,但是需要向下推自动机(即具有堆栈存储器的自动机)。那是他们(我想)向NN教授这种奇怪的东西的动机。


-1

“为什么当它起作用时起作用?”

n

因此,所有机器学习都是临时的。

机器学习类似于炼金术:有很多神秘的食谱,您应用其中的一个,就可以得到黄金。如果没有,只需应用另一个食谱。

没有人问过您提出的问题,至少在我所知道的出版物中没有问过。

最重要的是,有统计学习理论。统计学习理论假设训练集的大小达到无穷大。我知道的大多数结果都具有以下形式:“在某些条件下,如果您有足够大的训练集,则使用此过程可以获得几乎最佳的结果”。“足够大”的估计超出了想象。

当然,问题在于,训练集的大小不会随处可见,更不用说无穷大了。

因此,我认为,现在是时候(1)提出这个问题,(2)开发一种数学设备来回答有关所有可能的机器学习算法的问题,以及(3)回答这个问题的好时机。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.