实际上是否缺乏有关深度学习的基础理论?


10

我几次听说深度学习的根本/开放问题之一是缺乏“通用理论”,因为实际上我们不知道为什么深度学习如此有效。甚至有关深度学习的Wikipedia页面也有类似的评论。这样的陈述是否可信并能代表该领域的现状?

Answers:


5

有一篇名为《深度学习为什么如此出色的工作》的论文

“但是,仍然不能完全理解为什么深度学习如此出色。与手工制作并经过分析全面理解的GOFAI(“老式人工智能”)算法相反,许多使用人工神经网络的算法仅在启发式的水平,在经验上我们知道某些采用大数据集的训练方案将产生出色的性能,这让人想起人脑的情况:我们知道,如果我们按照一定的课程训练孩子,她将学习技巧-但是我们对她的大脑如何做到这一点缺乏深刻的了解。”


3

确实是这种情况。深度学习模型甚至是诸如堆叠式自动编码器和神经网络之类的较浅模型都尚未完全了解。人们正在努力了解这种复杂的变量密集型函数的优化过程正在发生什么。但是,这是一项艰巨的任务。

研究人员用来发现深度学习如何工作的一种方法是使用生成模型。首先,我们训练一种学习算法,并系统地限制它,同时要求它生成示例。通过观察生成的结果示例,我们将能够更有意义地推断算法中正在发生的事情。这非常类似于在神经科学领域使用抑制剂来了解大脑的不同成分的用途。例如,我们知道视觉皮层就在其中,因为如果我们损坏它,您就会失明。


2

它可能取决于“基本理论”的含义,但是在深度学习中并不缺少严格的定量理论,尽管有相反的说法,但其中一些非常笼统。

一个很好的例子是围绕基于能量的学习方法的工作。参见例如Neal&Hinton在变分推理和自由能方面的工作:http : //www.cs.toronto.edu/~fritz/absps/emk.pdf

另外,Yann LeCun及其同事将能源最小化作为“许多学习模型的通用理论框架”的指南:http: //yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

以及Scellier和Bengio基于能源的模型的通用框架:https://arxiv.org/pdf/1602.05179.pdf

还有Hinton&Sejnowski的早期工作,从分析上表明,特定的Hopfield启发式网络+无监督学习算法可以近似贝叶斯最优推断:https : //papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

也有许多将深度学习与理论神经科学联系起来的论文,例如以下论文,它们表明可以在生物学上合理的神经体系结构中实现反向传播的效果:https//arxiv.org/pdf/1411.0247.pdf

当然,有许多悬而未决的问题,没有统一的,无争议的统一理论,但是几乎在任何领域都可以说同样的话。


1

您的Wikipedia引用值得怀疑,因为深度学习已经发展成熟。实际上,[citation needed]维基百科页面上有一个。

看看https://github.com/terryum/awesome-deep-learning-papers。链接中有大约100篇论文,您是否仍然认为深度学习缺乏“通论”?

是。深度学习很难理解,因为它是一个非常复杂的模型。但这并不意味着我们没有理论。

也许是lime包装和它的论文:“为什么我应该信任您?”:解释任何分类器的预测都将对您有所帮助。该论文建议我们应该能够用一个简单得多的模型在本地近似一个复杂的模型(包括深度学习)。


3
许多有趣的应用程序并不意味着这些应用程序是按照某些严格的过程开发的。“嗯……也许我应该尝试8层?嗯..它有用!太好了,让我们发布结果。”
克里斯·安德森

2
“深度学习很难理解,因为它是一个非常复杂的模型。但这并不意味着我们没有理论。” 是的,但是我们没有理论。文献中对该技术的数学理解很少。关于深度学习如何或为什么起作用的大多数解释是基于直觉和经验主义的,这是可以的,但并不构成imo理论。
user27182 '19

0

深度学习理论中仍然存在的一个关键问题是,为什么如此庞大的模型(参数多于数据点)不会过度拟合我们使用的数据集。

基于复杂性度量的经典理论不能解释实际神经网络的行为。例如,VC维度的估计给出了虚假的泛化界限。据我所知,VC维度上最严格的(上限和下限)边界在[1]中给出,并且在网络中权数的数量级上。显然,这种最坏情况的复杂性无法解释例如大型Resnet如何在CIFAR或MNIST上泛化。

最近,在确保神经网络的泛化方面进行了其他尝试,例如通过与神经切线核相关或通过权重的各种范式度量。分别地,已经发现这些不适用于实际规模的网络,并且具有其他不令人满意的特性[2]。

PAC Bayes框架中有一些针对非空边界的工作,例如[3]。但是,这些设置需要对受过训练的网络有一定的了解,因此在口味上与传统的PAC分析有所不同。

其他方面:

  • 优化:在这种非凸问题上,我们如何从梯度下降中获得“好的”解决方案?(最近的文献对此有一些回答)

  • 可解释性:我们可以在直观的水平上解释网络在“思考”什么吗?(不是我所在的地区)

(不完整)参考:


0

我想指出,对于为什么机器学习总的来说没有一个好的理论。VC界限仍然采用模型,但是现实并不符合这些数学理想。最终,当涉及到应用程序时,一切都会归结为实际的结果。甚至使用与人类直观理解一致的算法来量化图像之间的相似度,也确实非常困难

无论如何,NN不能以它们的完全连接形式很好地工作。所有成功的网络都在网络体系结构(CNN,LSTM等)中内置了某种规则化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.