5
TCS对“为什么神经网络这么好工作?”这个问题想要什么样的答案?
我的博士学位 是纯数学领域的,我承认我对理论CS不太了解。但是,我开始探索自己职业生涯中的非学术选择,并在向自己介绍机器学习时,偶然发现诸如“没人知道为什么神经网络运作良好”这样的陈述,我发现这很有趣。 本质上,我的问题是研究人员想要什么样的答案?这是我对该主题进行简短搜索时发现的: 实现简单神经网络的算法非常简单。 从统计学上来说,SGD的过程在数学上是很容易理解的。 通用逼近定理是有力的和证明的。 最近有一篇不错的论文https://arxiv.org/abs/1608.08225,该论文基本上给出了这样的答案,即通用逼近远远超出了我们实际在实践中所需的值,因为我们可以对要使用该函数建模的函数做出强有力的简化假设。神经网络。 在上述论文中,他们指出(解释)“ GOFAI算法在分析上已被完全理解,但是许多ANN算法仅在试探性上被理解”。已实现算法的收敛定理是我们似乎对神经网络确实具有解析理解的一个示例,因此,在这种普遍性水平上的陈述并不能告诉我太多关于已知与未知或被认为是“答案”的信息。 ”。 作者确实在结论中暗示,诸如逼近给定多项式所需的神经网络大小的有效界限之类的问题是开放且有趣的。在说我们“理解”神经网络时,还需要回答数学上特定的分析问题的其他例子吗?是否有可能用更纯粹的数学语言回答的问题? (由于本文是使用物理学,所以我专门考虑了表示理论中的方法-并且,自私地,因为这是我的研究领域。但是,我也可以想象诸如组合/图论,代数几何等领域以及提供可行工具的拓扑。)