需要回归中的数据居中和标准化


16

考虑采用某种正则化的线性回归:例如,找到使| |最小的| A x b | | 2 + λ | | x | | 1个x||Axb||2+λ||x||1

通常,将A的列标准化为具有零均值和单位范数,而的中心为具有零均值。我想确定我对标准化和居中原因的理解是否正确。b

通过使b列的均值为零,我们不再需要拦截项。否则,目标将是| | A x x 0 1 b | | 2 + λ | | x | | 1。通过使A的列的范数等于1,我们消除了仅由于A的一列具有很高的范数而在x中获得较低系数的情况的可能性,这可能导致我们错误地得出结论: A不能很好地“解释” xAb||Axx01b||2+λ||x||1xx

这种推理并不严格,而是凭直觉,这是正确的思维方式吗?

Answers:


14

您将b列的均值清零是正确的Ab

但是,关于调整的列的范数,请考虑如果以范数A开头,并且x的所有元素的大小大致相同,会发生什么情况。然后让我们将一列乘以10 6x的相应元素在不规则回归中将增加10 6倍。看看正规化术语会发生什么?出于所有实际目的,正则化仅适用于该一个系数。 AAx106x106

通过规范的列,我们直观地将它们放在相同的比例尺上。因此,x元素的大小差异与解释函数(A x)的“摆动”直接相关,这简而言之就是正则化试图控制的东西。没有它,例如0.1的系数值与10.0的另一个系数的值将告诉您,在不了解A的情况下,哪个系数对A x的“摆动性”贡献最大。(对于线性函数,例如A x,“摆动”与从0的偏离有关。)AxAxAAxAx

回到您的解释,如果一列具有很高的范数,并且由于某种原因在x中的系数很低,我们将不能得出A的列不能很好地“解释” x的结论。 A根本不会“解释” xAxAxAx


你的意思是$x$ does not ''explain'' $A$ well,意思是x does not ''explain'' $A$ at all?在这种情况下,是数据,而x是模型。Ax
user3813057 '18

xβAXbyxA
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.