零均值和单位方差


Answers:


8

是否重要以及为什么重要的问题取决于上下文。

  • 例如,对于梯度增强的决策树,这并不重要-这些ML算法“不在乎”数据的单调变换;他们只是寻找要分割的点。

  • 例如,对于线性预测变量,定标可以改善结果的可解释性。如果您想将系数的大小视为某种特征在多大程度上影响结果,那么就必须以某种方式将这些特征缩放到同一区域。

  • 对于某些预测器,特别是NN,由于技术原因,缩放,尤其是缩放到特定范围可能很重要。一些图层使用仅在某些区域内有效更改的功能(类似于功能双曲线族),并且如果要素过多超出范围,则可能会发生饱和。如果发生这种情况,数值导数将无法正常工作,并且该算法可能无法收敛到一个好点。

在此处输入图片说明


2

在均值为零的情况下,这是因为某些机器学习模型的表示中不包含偏差项,因此我们必须先将数据绕原点移动,然后再将其提供给算法以弥补偏差项的不足。在单位差异的情况下,这是因为许多机器学习算法使用某种距离(例如,欧几里得距离)来进行决策或预测。如果特定特征具有宽泛的值(即较大的方差),则该特征将大大影响距离,而其他特征的影响将被忽略。顺便说一句,当数据标准化时,某些优化算法(包括梯度下降)具有更好的性能。


2
  • 每当我们从机器学习中的任何数据集开始时,我们通常会假设所有数据特征对于输出都同等重要,并且一个特征不应主导其他特征。这通常是我们选择将所有功能都按相同比例缩放的原因。
    但是,在这里可能会产生一个疑问,即使即使未对特征进行归一化,在学习时分配给它的权重也可能有助于训练时将数据集收敛到预期的输出。问题在于,训练和产生结果确实需要很长时间。
  • 选择特定的数字0作为均值和方差1只是易于观察,而保持如此小的数字将有助于更快地进行训练。

因此,建议将所有特征以相同的比例缩小到足够容易训练的程度。下面的链接也讨论了类似的概念。 /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.