TCS对“为什么神经网络这么好工作？”这个问题想要什么样的答案？

52

我的博士学位是纯数学领域的，我承认我对理论CS不太了解。但是，我开始探索自己职业生涯中的非学术选择，并在向自己介绍机器学习时，偶然发现诸如“没人知道为什么神经网络运作良好”这样的陈述，我发现这很有趣。

本质上，我的问题是研究人员想要什么样的答案？这是我对该主题进行简短搜索时发现的：

实现简单神经网络的算法非常简单。
从统计学上来说，SGD的过程在数学上是很容易理解的。
通用逼近定理是有力的和证明的。
最近有一篇不错的论文https://arxiv.org/abs/1608.08225，该论文基本上给出了这样的答案，即通用逼近远远超出了我们实际在实践中所需的值，因为我们可以对要使用该函数建模的函数做出强有力的简化假设。神经网络。

在上述论文中，他们指出（解释）“ GOFAI算法在分析上已被完全理解，但是许多ANN算法仅在试探性上被理解”。已实现算法的收敛定理是我们似乎对神经网络确实具有解析理解的一个示例，因此，在这种普遍性水平上的陈述并不能告诉我太多关于已知与未知或被认为是“答案”的信息。 ”。

作者确实在结论中暗示，诸如逼近给定多项式所需的神经网络大小的有效界限之类的问题是开放且有趣的。在说我们“理解”神经网络时，还需要回答数学上特定的分析问题的其他例子吗？是否有可能用更纯粹的数学语言回答的问题？

（由于本文是使用物理学，所以我专门考虑了表示理论中的方法-并且，自私地，因为这是我的研究领域。但是，我也可以想象诸如组合/图论，代数几何等领域以及提供可行工具的拓扑。）

machine-learning

— 中性
source

3

GOFAI真的很好理解吗？许多GOFAI似乎都归结为SAT解，原型NP完全问题。现代SAT解算器在实践中表现出色，尽管他们不应该根据现有理论进行研究。为什么？

— Martin Berger 2016年

在这个领域确实有深度学习和深度学习的学习/改变/历史，这是该领域的主要范式转变。深度学习仅在过去五年内才兴起。简单的答案是，神经网络可以表示任意复杂的函数，而对于深度神经网络，复杂性现在处于非常高级的水平。另一个答案是，所研究的问题，甚至可能是“一般现实”，都是“基于特征构建的”，而人工神经网络现在擅长学习非常复杂的特征。

— vzn

我认为人们并没有真正在这里寻找“答案”。他们试图使用神经网络来解决问题，如果确实可以解决问题，那就很好。了解网络如何达到该解决方案在这里并不一定是您感兴趣的。只要是黑色/不透明的盒子，只要解决了问题，没人会在意。

— xji

38

机器学习中有很多“没有免费的午餐”定理，粗略地指出，没有一个主学习算法的性能比所有其他算法都更好（例如，请参见此处http：//www.no-free- Lunch.org/）。果然，深度学习可以毫无困难地被“打破”：http : //www.evolvingai.org/fooling

因此，要想证明是有效的，学习者需要归纳性偏见，即对数据的一些先验假设。归纳偏差的示例包括数据稀疏性或低维性，分布很好地分解或具有较大余量的假设等。各种成功的学习算法都利用这些假设来证明泛化保证。例如，当数据在空间上分离良好时，（线性）SVM可以很好地工作；否则-不会那么多。

我认为深度学习的主要挑战是了解其归纳偏差是什么。换句话说，就是证明这种类型的定理：如果训练数据满足这些假设，那么我可以保证一定的泛化性能。（否则，所有投注均关闭。）

更新（2019年9月）：自从我发布答案以来的两年中，在理解各种DL和相关算法中隐含的归纳偏差方面取得了很大进展。关键见解之一是所使用的实际优化算法很重要，因为统一收敛无法解释为什么大规模超参数化的系统（如大型ANN）根本无法学习。事实证明，各种优化方法（例如SGD）相对于各种规范（例如）都是隐式正则化的。有关其他示例以及更多内容，请参见此出色的讲座：https : //www.youtube.com/watch?v=zK84N6ST9sM $\ell_2$

— 亚列
source

应该注意的是，对抗性例子并非深度神经网络所独有。也可以轻松地构建它们以进行线性和逻辑回归，例如：arxiv.org/pdf/1412.6572.pdf

— Lenar Hoyt，

1

是的，但是从理论上可以更好地理解线性回归和逻辑回归。

— Aryeh

2

也许还应该指出，NFL定理在实际的机器学习中可能不会发挥重要作用，因为尽管NFL关注所有功能的类别，但现实世界中的问题通常仅限于平滑功能或更具体的功能，例如Lin和Tegmark在论文中考虑的那些。这可能是可能找到覆盖所有我们有兴趣学习的问题感性的偏见。

— Lenar霍伊特

4

然后，我们应该首先将“我们感兴趣的所有学习问题”的空间正式化。

— Aryeh

1

这绝对是值得的，尤其是在AI安全方面。我们需要能够可靠地指定机器学习算法应该学习的内容。

— Lenar Hoyt

26

我们对神经网络的理解存在两个主要差距：优化硬度和泛化性能。

训练神经网络需要在高维度上解决高度非凸的优化问题。当前的训练算法全部基于梯度下降，这仅保证收敛到临界点（局部最小值或鞍形）。实际上，Anandkumar＆Ge 2016最近证明，即使找到一个局部最小值也是NP难的，这意味着（假设P！= NP）在误差表面存在“不良”，难以逃避的鞍点。
然而，这些训练算法对于许多实际问题在经验上都是有效的，我们不知道为什么。
已经有诸如Choromanska等人的理论论文。2016年和川口2016年这证明，在某些假设下，局部最小值在本质上与全局最小值一样好，但是它们做出的假设有些不切实际，并且没有解决不良的鞍点问题。

我们理解的另一个主要差距是泛化性能：该模型在训练过程中未见过的新颖示例中的性能如何？很容易证明，在无限数量的训练示例（从固定分布中采样的iid）的限制下，训练误差收敛到新示例上的预期误差（假设您可以训练到全局最优值），但是由于我们没有无限的训练示例，我们感兴趣的是需要多少个示例来实现训练和泛化误差之间的给定差异。统计学习理论研究这些概括界限。
从经验上讲，训练一个大型的现代神经网络需要大量的训练示例（大数据，如果您喜欢流行语，则为大数据），但并不是那么庞大，实际上是不可行的。但是，如果您应用统计学习理论中最著名的界限（例如Gao＆Zhou 2014），则通常会得到这些不可行的庞大数字。因此，至少在实际问题上，这些界限远远不够严格。
原因之一可能是这些界限对数据生成分布的假设很少，因此它们反映了对抗环境下最坏情况下的性能，而“自然”环境往往更“易于学习”。
可以编写依赖于分布的泛化边界，但是我们不知道如何在“自然”环境中正式表征分布。诸如算法信息论之类的方法仍然不能令人满意。
因此，我们仍然不知道为什么可以在不过度拟合的情况下训练神经网络。

此外，应该指出的是，这两个主要问题似乎仍以一种不太了解的方式相关：统计学习理论的泛化界限假设该模型在训练集上进行了全局最优训练，但在实际环境中，在收敛到鞍点之前永远不会训练神经网络，因为这样做通常会导致过度拟合。相反，当保留的验证集上的错误（代表泛化错误）停止改善时，您停止训练。这被称为“提前停止”。
因此，从某种意义上说，所有关于界定全局最优泛化误差的理论研究都可能是无关紧要的：不仅我们无法有效地找到它，而且即使我们能够，我们也不想这样做，因为它会在比许多“次优”解决方案新颖的例子。
优化硬度可能不是神经网络的缺陷，相反，也许神经网络可以完全精确地工作，因为它们难以优化。
所有这些观察都是经验性的，没有很好的理论可以解释它们。也没有理论可以解释如何设置神经网络的超参数（隐藏层的宽度和深度，学习率，体系结构细节等）。从业者可以利用经验和经过反复试验和磨练磨练的直觉来得出有效值，而一种理论则可以使我们以更系统的方式设计神经网络。

— 安东尼奥·瓦莱里奥·米西里·巴隆
source

11

在@Aryeh的评论中要补充这个问题的另一个观点：对于许多其他学习模型，我们知道假设空间的“形状”。SVM是最好的例子，因为您发现的是（可能是高维的）希尔伯特空间中的线性分隔符。

一般来说，对于神经网络，我们没有任何这样的清晰描述，甚至没有近似值。对于我们来说，了解神经网络在数据中究竟能找到什么是非常重要的。

— 苏雷什·文卡特（Suresh Venkat）
source

您将其称为假设空间的“形状”吗？:)我们的定理2.1（第3页）是否回答了您的某些问题：eccc.weizmann.ac.il/report/2017/098？：D

— Anirbit '18

4

提出了信息瓶颈原理来解释深层神经网络的成功。

这是广达杂志的报价

上个月，一个在柏林举行的会议演讲的YouTube视频在人工智慧研究人员之间广泛分享，提供了可能的答案。在演讲中，耶路撒冷希伯来大学的计算机科学家和神经科学家Naftali Tishby提出了支持新理论的证据，该理论解释了深度学习的工作原理。Tishby认为，深度神经网络是根据称为“信息瓶颈”的过程进行学习的，他和两个合作者于1999年首次以纯理论术语对其进行了描述。这种想法是，网络可以摆脱多余细节的嘈杂输入数据，就像通过挤压通过瓶颈获取信息，仅保留与一般概念最相关的功能。

参考文献：

1- 深度学习和信息瓶颈原理 Naftali Tishby和Noga Zaslavsky

2- 通过Information，Ravid Shwartz-Ziv和Naftali Tishby 打开深层神经网络的黑匣子

3- 会议演讲视频： Naftali Tishby 的深度学习信息理论

— 穆罕默德·图尔克斯坦尼
source

1

我要说的是，我们仍然需要发现一种用于训练深度神经网络的有效算法。是的，SGD在实践中确实能很好地工作，但是找到一种可以保证收敛到全局最小值的更好算法将是非常好的。

— 迪迪姆斯
source