如果神经网络中的每个神经元基本上都是逻辑回归函数，那么为什么多层更好？

13

我将浏览Cousera的DeepAI课程（第3周视频1“神经网络概述”），Andrew Ng解释了神经网络中的每一层如何只是另一种逻辑回归，但他没有解释如何使事情变得更加准确。

那么在2层网络中，如何多次计算logistic使其更准确？

logistic neural-networks

— 微软
source

7

通常，为了适合一个好的单逻辑回归模型，您需要进行重要的特征增强。两层nn试图为您完成一些工作。

— 马修·德鲁里

@msk，您是否曾经根据原始功能创建了新功能来改善逻辑回归？这就是隐藏层所做的。

— 里卡多·克鲁兹

10

使用逻辑激活函数时，确实将每个单元的输入与其输出相关联的函数与逻辑回归相同。但是，这与执行逻辑回归的每个单元并不完全相同。不同之处在于，在逻辑回归中，权重和偏差的选择应使输出最匹配给定的目标值（使用对数/交叉熵损失）。相反，神经网络中的隐藏单元将其输出发送到下游单元。没有与单个隐藏单元匹配的目标输出。而是选择权重和偏差以最小化某些目标函数，该目标函数取决于网络的最终输出。

与其执行逻辑回归，不如将每个隐藏单元视为在某个特征空间中计算坐标可能更有意义。从这个角度来看，隐藏层的目的是转换其输入-输入向量映射到隐藏层激活的向量。您可以认为这是将输入映射到具有对应于每个隐藏单元的尺寸的要素空间中。

通常可以将输出层视为在此特征空间中运行的标准学习算法。例如，在分类任务中，使用具有交叉熵损失的逻辑输出单元等效于在特征空间中执行逻辑回归（如果使用softmax输出，则执行多项式逻辑回归）。在回归任务中，使用具有平方误差的线性输出等效于在特征空间中执行最小二乘线性回归。

训练网络就等于学习特征空间映射和分类/回归功能（在特征空间中），它们共同提供最佳性能。假定非线性隐藏单元，增加隐藏层的宽度或堆叠多个隐藏层将允许更复杂的特征空间映射，从而允许更复杂的功能得以拟合。

— 用户20160
source

7

观察非线性功效的一种方法是记一下普遍近似定理。

尽管它在实践中不是很重要（它与单层网络的功能有关），但它告诉您，如果使用（任意长的）S形和，您原则上可以将任何连续函数近似到任何所需的水平。如果您了解傅立叶理论或记得Weierstrass逼近定理，那就不足为奇了。

— 雅库布·巴特祖克（Jakub Bartczuk）
source

3

这是唯一能够正确回答问题的人，尽管有点太简洁了。隐藏层足以创建结合原始功能的强大新功能。问题是，你可能需要有太多的节点隐藏层，和收敛过程效果最好有了更深的网络隐藏层> 1

— 里卡多·克鲁兹

5

当神经网络中存在隐藏层时，我们将添加非线性特征。请在这里查看我的答案以获取更多信息。

是什么使神经网络成为非线性分类模型？

具体而言，嵌套的Sigmoid函数比原始特征和一个Sigmoid函数的线性变换（逻辑回归）更“强大”。

这是一个数字示例，用于解决OP的评论。

假设我们有数据帧，它是矩阵（10个数据点，3个特征）。如果我们要有隐藏的单位，则权重矩阵是 x矩阵。隐藏层的输出（矩阵乘积输出）是矩阵，对于每个数据点，有扩展特征。 $X$ $10 \times 3$ $7$ $W$ $3 \times 7$ $X \times W$ $10 \times 7$ $7$

— 海涛都
source

我只是想知道，然后第一层的任何节点的输出如何不同，即节点1获得X1，X2，X3，节点2也获得X1，X2，X3，如果它们都是逻辑回归，那么他们的输出会有所不同吗？

— mskw

假设您有3个要素和10个隐藏单元，则隐藏层的输出将包含10个“工程要素”。

— 海涛杜

为什么您将其称为“工程功能”，您还提到X1，X2，X3的功能？

— mskw

我将编辑我的答案以解决您的评论。

— 海涛杜

感谢您的修改，根据您的解释，我不确定您是否未回答我的问题，还是我需要首先弥补的知识鸿沟。具体来说，权重是否从您的答案中引用了节点的每个输出函数？如果是这样，它们与同一层上的其他每个节点有何不同？

— mskw

3

在标准逻辑回归中，最后一层有1个输出。但是，使用单个隐藏层神经网络，我们可以有多个中间值，每个中间值都可以视为不同logistic回归模型的输出，即我们不只是一次又一次地执行相同的logistic回归。因此，可以认为将它们组合起来比标准逻辑回归模型具有更大的表达能力（并且在实践和理论上也已经显示出来）的可能性不大。

您还在注释中提到了如果这些节点具有相同的输入，它们如何在同一层中具有不同的值？这是因为它们应具有不同的权重。神经网络中的每个节点都接受输入，并产生一个值，其中是某些选定函数，在在本例中，S形是是权重，是输入，是一些偏差。选择重量 $N$ $\displaystyle y_j = f\left(\sum_{i = 1}^N w_{ji} \cdot x_i + b_j\right)$ $f$ $w_{ji}$ $x_i$ $b_j$ 通过优化算法来优化我们的目标，例如最小化分类误差。对于通常用于优化权重的梯度下降算法，初始化非常重要。请参阅https://intoli.com/blog/neural-network-initialization/，其中如果所有权重均始于0，则网络将无法学习。

— 斯里安·帕梅什瓦尔
source