Answers:
移位/缩放变量不会影响它们与响应的相关性
要了解为什么这是真的,假设 和 是 。然后之间的相关 和 是
这从相关性的定义和三个事实得出:
因此,在模型拟合方面(例如或拟合值),移动或缩放变量(例如,将变量置于相同的比例)不会改变模型,因为线性回归系数与变量之间的相关性有关。它只会更改回归系数的比例,如果您选择转换预测变量,则在解释输出时应牢记这一点。
编辑:以上是假设你在谈论普通的回归与拦截。与此相关的其他几点(感谢@cardinal):
当您转换变量时,截距可能会改变,并且正如@cardinal在注释中指出的那样,如果您从模型中省略了截距,则当您移动变量时系数也会改变,尽管我认为除非您有一个很好的理由(例如参见此答案)。
如果您以某种方式(例如套索,山脊回归)对系数进行正则化,那么居中/缩放将影响拟合。例如,如果您要处罚 (岭回归罚分),那么除非首先所有变量都处于相同的标度下,否则标准化后就无法恢复等效拟合,即,没有常数倍会恢复相同的罚分。
关于研究人员何时/为什么要转换预测变量
一个常见的情况(在@Paul的后续回答中讨论)是研究人员将其预测变量标准化,以便所有系数都在同一范围内。在那种情况下,一旦将预测变量的数值标准化,点估计的大小就可以粗略了解哪些预测变量影响最大。
研究人员可能喜欢缩放非常大的变量的另一个原因是,回归系数不会处于极小的范围内。例如,如果您想查看一个国家的人口规模对犯罪率的影响(无法想到一个更好的例子),您可能希望以百万人口而不是其原始单位来衡量人口规模,因为系数可能像。
所谓的“归一化”是大多数回归方法的常用例程。有两种方法:
由于线性回归对变量范围非常敏感,因此,如果您对相关性没有任何先验知识,并且期望所有变量都相对重要,那么通常建议对所有变量进行归一化。
响应变量也是如此,尽管对它们而言并不重要。
为什么要进行标准化或标准化?通常是为了确定模型中不同变量的相对影响。如果所有变量都在同一单位中,则可以实现此效果。
希望这可以帮助!
x1,x2,y
这两个命令:summary(lm(y~x1+x2))$r.sq
和summary(lm(y~scale(x1)+scale(x2)))$r.sq
-当您不对系数进行标准化时,或者当您对系数进行标准化时,请给出相同的值,表示等效拟合。