Answers:
当输出噪声很大时,最大化相关性很有用。换句话说,输入和输出之间的关系非常弱。在这种情况下,最小化MSE将倾向于使输出接近零,从而使预测误差与训练输出的方差相同。
对于梯度下降方法,可以直接使用相关性作为目标函数(将其更改为最小化负相关性)。但是,我不知道如何使用SGD方法对其进行优化,因为成本函数和梯度涉及所有训练样本的输出。
最大化相关性的另一种方法是通过将输出方差约束为与训练输出方差相同来最小化MSE。但是,约束也涉及所有输出,因此(我认为)无法利用SGD优化器。
编辑:如果神经网络的顶层是线性输出层,我们可以最小化MSE,然后在线性层中调整权重和偏差以最大化相关性。可以与CCA(https://en.wikipedia.org/wiki/Canonical_analysis)类似地进行调整。