我已经阅读了很多有关卷积神经网络的文章,并且想知道它们如何避免消失的梯度问题。我知道深度信任网络会堆叠单级自动编码器或其他经过预先训练的浅层网络,因此可以避免此问题,但是我不知道如何在CNN中避免这种情况。
根据维基百科:
“尽管存在上述“消失的梯度问题”,但GPU的优越处理能力使普通的反向传播对于多层多层前馈神经网络来说是可行的。”
我不明白为什么GPU处理会消除此问题?
2
维基百科的文章是否没有理由说明GPU为什么有助于解决逐渐消失的梯度问题?是因为即使梯度很小,但由于GPU是如此之快,我们仍然需要通过GPU的大量步骤来改善参数?
—
查理·帕克
究竟。消失的梯度问题是较低层权重以非常小的速率更新的原因,因此需要永远训练网络。但是,与GPU一样,您可以在更短的时间内完成更多的计算(即,权重的更多更新),并且GPU的处理越来越多,消失梯度问题在某种程度上消失了。
—
Sangram
@CharlieParker,您能详细说一下
—
阿努
GPU's are fast correlated with vanishing gradients
,我可以理解具有大内存带宽的快速逻辑来处理多个矩阵乘法!但您能否解释一下与衍生产品有什么关系?该消失的梯度问题似乎与体重初始化做更多的,是吧!