Answers:
这是我如何表示交叉熵损失:
这里,是训练数据集中的输入示例集合,是这些输入示例的相应标签集。的表示的神经网络给定的输入的输出。
每一个都为0或1,并且通常通过使用logistic Sigmoid将输出激活限制为打开间隔(0,1)。例如,对于单层网络(等效于逻辑回归),激活将由,其中是a权重矩阵,是偏差向量。对于多层,可以将激活函数扩展为,其中和是第一层的权重矩阵和偏差,而
我使用(i)上标来表示示例,因为我发现它在Andrew Ng的机器学习课程中非常有效;有时人们将示例表示为矩阵中的列或行,但是想法仍然相同。
我们到底要总结什么?
该教程实际上非常明确:
...是训练数据的总数,所有训练输入的总和...
教程(公式57)中给出的原始单个神经元代价函数在下也带有下标,这可能暗示了这一点。对于单个神经元情况,除了训练示例外,没有其他要总结的内容,因为在计算时,我们已经对所有输入权重进行了求和:Σ 一
在同一教程的稍后部分,尼尔森给出了多层,多神经元网络(方程63)的成本函数的表达式:
在这种情况下,总和遍历训练示例( 's)和输出层( 's)中的单个神经元。