人工神经网络是否等效于具有多项式特征的线性回归?


11

与其他机器学习算法相比,我想提高对神经网络及其好处的理解。我的理解如下,我的问题是:

你能纠正和补充我的理解吗?:)

我的理解:

(1)人工神经网络=根据输入值预测输出值的函数。根据通用近似定理(https://en.wikipedia.org/wiki/Universal_approximation_theorem),只要有足够的神经元,通常就可以具有任何可能的预测功能(尽管它应该表现良好)。

(2)通过将输入值的多项式作为附加输入值,对于线性回归也是如此,因为您可以通过多项式很好地近似(比较泰勒展开)。

(3)这意味着,从某种意义上说,就最佳可能结果而言,这两种方法是等效的。

(4)因此,它们的主要区别在于哪种方法适合于更好的计算实现。换句话说,根据训练示例,您可以使用哪种方法为最终定义预测函数的参数找到更快的良好值。

我欢迎对其他链接或书籍的任何想法,评论和建议,以改善我的想法。


2
应该将 具有激活的神经网络移到math.stackexchange.com上任何平滑函数都可以很好地近似任意,但是它们还有一个功能:平滑度(权重的缩放比例)取决于点,这是获得良好全局效果的关键。近似。您无法通过多项式逼近来实现(给定连续函数,将其与卷积,并在某点附近使用泰勒展开式的前几项,这仅给出一个很好的本地近似值)n d e - π | n x | 2ñdË-π|ñX|2
user1952009年

@ user1952009-由于定理中逼近的均匀性,Stone-Weierstrass并不暗示任意良好的全局逼近吗?
jbowman

@jbowman它具有很好的局部近似性:对于任何连续,和都有一个平滑的,解析的或多项式函数(如您所愿)使得。神经网络也是如此,但其特点是它可以采用许多不同的局部近似值(围绕不同的)并将它们混合以获得某种全局近似值。F[RϵF[RϵSUP|X|[R|FX-F[RϵX|ϵX0
user1952009

1
这可能是stats.stackexchange.com/questions/41289/…的副本。我会举报这个问题,但是由于赏金高昂,我想我只是在这里发表评论:)
休·珀金斯

1
+1 @HughPerkins链接到有洞察力的相关Q。但是,即使相关问题的答案确实可以在此处提供对该问题的见解(例如,Stephan Kolassa解释说,人工神经网络将非线性视为默认值,而回归仅将非线性考虑在内)当通过其他技术专门建模时)我不会标记重复。您询问哪种模型类型可以提供更好的结果,而这个问题专门要求您说明两种方法的结果和可推广性是否相似。
IWS

Answers:


7

这是交易:

从技术上讲,您确实编写了真实的句子(如果有足够的参数,这两个模型都可以近似任何“不太疯狂”的函数),但是这些句子根本无法帮助您!

这是为什么?好吧,仔细看一下通用逼近理论,或者任何其他形式化的证明,即只要有足够的神经元,神经网络就可以计算任何f(x)。

我看到的所有这些证明都只使用一个隐藏层。

快速浏览一下http://neuralnetworksanddeeplearning.com/chap5.html,以获得一些直觉。有工作表明,从某种意义上说,如果您仅使用一层,所需的神经元数量就会成倍增长。

因此,虽然理论上您是对的,但实际上您没有无限的存储量,因此您真的不想训练2 ^ 1000个神经元网,对吗?即使您确实有无限的内存量,该网络也肯定会过剩。

在我看来,机器学习最重要的一点就是实践点!让我们对此进行一些扩展。这里真正的大问题不只是多项式在训练集之外如何快速增加/减少。一点也不。举一个快速的例子,任何图片的像素都在非常特定的范围内(每种RGB颜色为[0,255]),因此您可以放心,任何新样本都将在训练值的范围内。不能。重要的是:此比较对于以(!)开始没有用。

我建议您对MNIST进行一些试验,并尝试仅使用一个图层即可看到实际结果。

实际的网络使用多个隐藏层的方式,有时甚至是数十个(甚至Resnet甚至更多)层。因为某种原因。该原因尚未得到证明,通常,选择神经网络的体系结构是研究的热点。换句话说,尽管我们仍然需要了解更多信息,但是您已比较的两个模型(线性回归和仅带有一个隐藏层的NN)对于许多数据集都毫无用处!

顺便说一句,如果您要学习ML,还有另一个无用的定理,它实际上是当前的“研究领域”-PAC(可能近似正确)/ VC维度。我将对此进行补充:

如果通用逼近基本上表明在给定无限数量的神经元的情况下,我们可以近似任何功能(非常感谢?),那么在实际条件下,PAC所说的实际上是!想要我们模型中的最佳假设。当我以某种确定的概率计算出实际网络所需的示例数量在一定的实际期望误差率以内时,这真是太可笑了:)它比宇宙中的电子数量还多。PS也会对此进行增强,并假设样本是IID(永远不会如此!)。


那么,人工神经网络是否等效于具有多项式特征的线性回归?您的答案似乎集中在层数和所需神经元的数量上,但没有解释为什么这两个分析应该/可以等效。与使用多项式进行回归相比,添加更多(隐藏)层是否使神经网络能够处理(甚至)更多函数?而且,正如OP自己想知道的那样,这些模型的外部有效性/样本外性能(以及在使用更复杂的模型选项和性能之间的权衡)如何?
IWS

我指的是我的第一句话:“技术上您确实写了真实的句子”。
Yoni Keren

好吧,我问,因为根据您的回答,我对您所说的“ OP写出真实句子”的理由尚不清楚。您是否愿意对此进行详细说明?
IWS

当然。这更好吗,还是您发现还有其他不清楚的地方?
Yoni Keren

8

的确,任何函数都可以通过算作神经网络的事物和算作多项式的事物任意近似地闭合。

首先,请记住,这对于许多构造都是正确的。您可以通过组合正弦和余弦(傅立叶变换)来近似任何函数,或者简单地通过添加很多“矩形”(实际上不是精确的定义,但我希望您能理解这一点)。

其次,就像Yoni的答案一样,每当您训练网络或使用大量幂拟合回归时,神经元的数量或幂的数量都是固定的。然后,您应用某种算法(例如梯度下降之类的方法),并以此找到最佳参数。参数是网络中的权重,是大型多项式的系数。您在多项式中获得的最大功效或所用神经元的数量称为超参数。在实践中,您将尝试其中的一些。您可以确定参数是参数,但这在实践中并非如此。

但是,对于机器学习而言,关键是您并不需要真正完美地适合您的数据的功能。实际上,这并不难实现。您想要适合的东西,但也可能适用于您尚未见过的要点。例如,请参见此图片,该图片取自的文档scikit-learn

一条线太简单了,但是最好的近似值不在右边,而是在中间,尽管右边的函数最合适。右边的函数将对新数据点做出一些非常奇怪的预测(并且可能是次优的),尤其是当它们落在左边的摆动位附近时。

具有两个参数的神经网络之所以能如此出色地运行,其根本原因是,它们可以拟合某些东西,但不能真正拟合。这也与他们的训练方式有很大关系,具有某种形式的随机梯度下降。


2

由于尚未提供任何答案(尽管我会接受user1952009的评论作为答案发布),所以让我分享我在此期间学到的知识:

(1)在我看来,我的理解通常是正确的,但细节是魔鬼。

(2)在“我的理解”中遗漏的一件事:参数化假设对训练集以外的数据的推广程度如何?神经网络预测的非多项式性质可能比简单的线性/多项式回归更好(记住多项式如何在训练集外迅速增加/减少)。

(3)进一步解释能够快速计算参数的重要性的链接:http : //www.heatonresearch.com/2017/06/01/hidden-layers.html


2

也许本文可以为您提供帮助:

多项式回归替代神经网络

摘要说:

尽管神经网络(NN)取得了成功,但许多人仍对其“黑匣子”性质感到担忧。他们为什么工作?在这里,我们提出一个简单的分析论点,即NN实际上是本质上多项式回归模型。这种观点将对神经网络产生各种影响,例如,为神经网络为什么会出现收敛问题提供解释,并为避免过度拟合提供粗略指导。此外,我们使用这种现象来预测和确认先前文献中未报道的神经网络的多重共线性特性。最重要的是,鉴于这种松散的对应关系,人们可以选择常规使用多项式模型代替NN,从而避免了后者的一些重大问题,例如必须设置许多调整参数并处理收敛问题。我们提出了一些经验结果;在每种情况下,多项式方法的精度都可以达到或超过NN方法的精度。提供了功能强大的开源软件包polyreg。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.