9
为什么要使用softmax而不是标准归一化?
在神经网络的输出层中,通常使用softmax函数来近似概率分布: 由于指数的原因,计算起来很昂贵。为什么不简单地执行Z变换以使所有输出为正,然后仅通过将所有输出除以所有输出的总和来进行归一化?
数学涉及程序中数字的操纵。有关一般数学问题,请在[math.stackexchange.com](https://math.stackexchange.com/)上提问。注意:如果您的问题是关于浮点计算的意外结果,请首先阅读[浮点数学是否已损坏?](https://stackoverflow.com/q/588004/1679849)。