Answers:
使用逻辑激活函数时,确实将每个单元的输入与其输出相关联的函数与逻辑回归相同。但是,这与执行逻辑回归的每个单元并不完全相同。不同之处在于,在逻辑回归中,权重和偏差的选择应使输出最匹配给定的目标值(使用对数/交叉熵损失)。相反,神经网络中的隐藏单元将其输出发送到下游单元。没有与单个隐藏单元匹配的目标输出。而是选择权重和偏差以最小化某些目标函数,该目标函数取决于网络的最终输出。
与其执行逻辑回归,不如将每个隐藏单元视为在某个特征空间中计算坐标可能更有意义。从这个角度来看,隐藏层的目的是转换其输入-输入向量映射到隐藏层激活的向量。您可以认为这是将输入映射到具有对应于每个隐藏单元的尺寸的要素空间中。
通常可以将输出层视为在此特征空间中运行的标准学习算法。例如,在分类任务中,使用具有交叉熵损失的逻辑输出单元等效于在特征空间中执行逻辑回归(如果使用softmax输出,则执行多项式逻辑回归)。在回归任务中,使用具有平方误差的线性输出等效于在特征空间中执行最小二乘线性回归。
训练网络就等于学习特征空间映射和分类/回归功能(在特征空间中),它们共同提供最佳性能。假定非线性隐藏单元,增加隐藏层的宽度或堆叠多个隐藏层将允许更复杂的特征空间映射,从而允许更复杂的功能得以拟合。
当神经网络中存在隐藏层时,我们将添加非线性特征。请在这里查看我的答案以获取更多信息。
具体而言,嵌套的Sigmoid函数比原始特征和一个Sigmoid函数的线性变换(逻辑回归)更“强大”。
这是一个数字示例,用于解决OP的评论。
假设我们有数据帧,它是矩阵(10个数据点,3个特征)。如果我们要有隐藏的单位,则权重矩阵是 x矩阵。隐藏层的输出(矩阵乘积输出)是矩阵,对于每个数据点,有扩展特征。10 × 3 7 宽3 × 7 X × W 10 × 7 7
在标准逻辑回归中,最后一层有1个输出。但是,使用单个隐藏层神经网络,我们可以有多个中间值,每个中间值都可以视为不同logistic回归模型的输出,即我们不只是一次又一次地执行相同的logistic回归。因此,可以认为将它们组合起来比标准逻辑回归模型具有更大的表达能力(并且在实践和理论上也已经显示出来)的可能性不大。
您还在注释中提到了如果这些节点具有相同的输入,它们如何在同一层中具有不同的值?这是因为它们应具有不同的权重。神经网络中的每个节点都接受输入,并产生一个值,其中是某些选定函数,在在本例中,S形是是权重,是输入,是一些偏差。选择重量ÿ Ĵ = ˚F (Ñ Σ我= 1瓦特Ĵ 我 ⋅ X 我 + b Ĵ ) ˚F 瓦特Ĵ 我 X 我b Ĵ通过优化算法来优化我们的目标,例如最小化分类误差。对于通常用于优化权重的梯度下降算法,初始化非常重要。请参阅https://intoli.com/blog/neural-network-initialization/,其中如果所有权重均始于0,则网络将无法学习。