使数据具有零均值的想法


12

我经常看到人们通过删除所有元素的均值来使数据集的维/特征为零均值。但是我从来不明白为什么要这么做?将其作为预处理步骤有什么作用?它会提高分类性能吗?回答有关数据集的问题是否有帮助?在进行可视化以了解数据时是否有帮助?


9
这种方法称为居中。它的应用之一是将回归模型的截距转变为“当x平均为y时预测的y”,使截距更具可解释性。
Penguin_Knight 2014年

中心特征/数据集也可以说是条件良好的。视觉效果见此处。归一化输入的操作使梯度下降更加容易。
调整

Answers:


12

在某些情况下,“以数据的平均值为中心”(以下简称“去含义”)很有用:

N(10,4)N(100,4)

2)简化高阶矩的计算:尽管将一个常数添加到随机变量中不会改变其方差或与另一个随机变量的协方差,但是,如果均值非零,则必须写出详细的计算,您必须写下所有条款并证明它们已被取消。如果这些变量没有含义,则可以节省很多无用的计算。

3)以均值为中心的随机变量是中心极限定理的主题

4)在许多情况下,与“平均值”的偏差是关注的问题,它们是否趋于“高于或低于平均值”,而不是随机变量的实际值。“翻译”(在视觉和/或计算上)平均值以下的偏差为负值,平均值以上的偏差为正值,使消息更清晰,更强。

有关更深入的讨论,另请参见

进行多元回归时,何时应将预测变量居中以及何时应对其进行标准化?

在多元回归中将数据居中

如果在CV上搜索“中心数据”,您还将找到其他有趣的帖子。


@OP:我认为这个答案应该被接受。
罗威纳(Rotweiler)2015年

4

同样,出于实际原因,例如在训练神经网络时对数据进行居中是有利的。

这个想法是训练一个神经网络需要使用基于梯度的方法来解决一个非凸优化问题。通过反向传播计算梯度。现在,这些梯度取决于输入,并且将数据居中将消除梯度中可能存在的偏差。

具体而言,非零均值会以较大的特征值反映出来,这意味着梯度在一个方向上倾向于比其他方向(偏置)大,从而减慢了收敛过程,最终导致更糟糕的解决方案。


1

除了Alecos所说的那样(这非常好)之外,使用贝叶斯统计或正则化时将数据居中为零非常重要,因为否则数据可以与截距相关联,这会使正则化无法完成您通常想要的操作。

将数据设为零均值可以减少协方差矩阵的许多非对角项,因此使数据更易于解释,系数也更直接有意义,因为每个系数主要应用于该因子,并且通过与其他因素。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.