需要回归中的数据居中和标准化

16

考虑采用某种正则化的线性回归：例如，找到使最小的 $x$ $||Ax - b||^2+\lambda||x||_1$

通常，将A的列标准化为具有零均值和单位范数，而的中心为具有零均值。我想确定我对标准化和居中原因的理解是否正确。 $b$

通过使和列的均值为零，我们不再需要拦截项。否则，目标将是。通过使A的列的范数等于1，我们消除了仅由于A的一列具有很高的范数而在获得较低系数的情况的可能性，这可能导致我们错误地得出结论： A不能很好地“解释” 。 $A$ $b$ $||Ax-x_01-b||^2+\lambda||x||_1$ $x$ $x$

这种推理并不严格，而是凭直觉，这是正确的思维方式吗？

regression lasso regularization standardization

— rk2
source

Answers:

14

您将和列的均值清零是正确的 $A$ $b$ 。

但是，关于调整的列的范数，请考虑如果以范数开头，并且所有元素的大小大致相同，会发生什么情况。然后让我们将一列乘以。的相应元素在不规则回归中将增加倍。看看正规化术语会发生什么？出于所有实际目的，正则化仅适用于该一个系数。 $A$ $A$ $x$ $10^{-6}$ $x$ $10^6$

通过规范的列，我们直观地将它们放在相同的比例尺上。因此，元素的大小差异与解释函数（）的“摆动”直接相关，这简而言之就是正则化试图控制的东西。没有它，例如0.1的系数值与10.0的另一个系数的值将告诉您，在不了解的情况下，哪个系数对的“摆动性”贡献最大。（对于线性函数，例如，“摆动”与从0的偏离有关。） $A$ $x$ $Ax$ $A$ $Ax$ $Ax$

回到您的解释，如果一列具有很高的范数，并且由于某种原因在系数很低，我们将不能得出的列不能很好地“解释” 结论。根本不会“解释” 。 $A$ $x$ $A$ $x$ $A$ $x$

— 鲍伯曼
source

你的意思是$x$ does not ''explain'' $A$ well，意思是x does not ''explain'' $A$ at all？在这种情况下，

是数据，而

是模型。

A

$A$

x

$x$

— user3813057 '18

x

$x$

β

$\beta$

A

$A$

X

$X$

b

$b$

y

$y$

x

$x$

A

$A$

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.