下图显示了通过线性回归获得的系数(以mpg
作为目标变量,所有其他作为预测变量)。
如何解释这些结果?仅当数据缩放后,变量hp
和disp
才有意义。是am
和qsec
同样重要或am
比数量更为重要qsec
?一个人应该说哪个变量是重要的决定因素mpg
?
感谢您的见解。
下图显示了通过线性回归获得的系数(以mpg
作为目标变量,所有其他作为预测变量)。
如何解释这些结果?仅当数据缩放后,变量hp
和disp
才有意义。是am
和qsec
同样重要或am
比数量更为重要qsec
?一个人应该说哪个变量是重要的决定因素mpg
?
感谢您的见解。
Answers:
在这种情况下,如果没有标准错误,就无法真正讨论重要性。它们与变量和系数成比例。此外,每个系数都取决于模型中的其他变量,并且共线性实际上似乎在夸大hp和disp的重要性。
重新定标变量根本不应该改变结果的重要性。确实,当我重新进行回归分析时(按原样使用变量,并通过减去均值并除以标准误差进行归一化),每个系数估计值(常数除外)与缩放前的t统计量完全相同,并且F检验的总体重要性保持完全相同。
也就是说,即使所有变量均按比例缩放为均值零且方差为1,对于每个回归系数也没有一个标准误差大小,因此仅查看变量中每个系数的大小即可。标准化回归仍然对意义产生误导。
正如David Masip解释的那样,系数的表观大小与数据点的大小成反比关系。但是,即使disp和hp的系数很大,它们与零的差异仍然不大。
实际上,hp和disp高度相关,r = .79,因此这些系数的标准误差相对于系数幅度特别高,因为它们是共线的。在这种回归中,他们进行了怪异的平衡,这就是为什么一个系数为正,而系数为负的原因。这似乎是过度拟合的情况,似乎没有意义。
查看哪些变量可以解释mpg的最大变化是一个很好的方法,即(调整后的)R平方。实际上,y的变化百分比由x变量的变化来解释。(调整后的R平方包括方程式中每个其他x变量的轻微损失,以抵消过度拟合的情况。)
鉴于其他变量,一种查看重要数据的好方法是,当您从回归中忽略该变量时,查看调整后R平方的变化。该变化是在其他变量保持不变之后,该因子解释的因变量的方差百分比。(通常,您可以使用F检验来测试遗留变量是否重要;这是变量选择的逐步回归的工作方式。)
为了说明这一点,我分别对每个变量进行了一次线性回归,以预测mpg。单独的变量wt可以解释mpg变化的75.3%,没有一个变量可以解释更多。但是,许多其他变量与wt相关,并解释了一些相同的变化。(我使用了鲁棒的标准误差,这可能会导致标准误差和重要性计算上的细微差别,但不会影响系数或R平方。)
+------+-----------+---------+----------+---------+----------+-------+
| | coeff | se | constant | se | adj R-sq | R-sq |
+------+-----------+---------+----------+---------+----------+-------+
| cyl | -0.852*** | [0.110] | 0 | [0.094] | 0.717 | 0.726 |
| disp | -0.848*** | [0.105] | 0 | [0.095] | 0.709 | 0.718 |
| hp | -0.776*** | [0.154] | 0 | [0.113] | 0.589 | 0.602 |
| drat | 0.681*** | [0.123] | 0 | [0.132] | 0.446 | 0.464 |
| wt | -0.868*** | [0.106] | 0 | [0.089] | 0.745 | 0.753 |
| qsec | 0.419** | [0.136] | 0 | [0.163] | 0.148 | 0.175 |
| vs | 0.664*** | [0.142] | 0 | [0.134] | 0.422 | 0.441 |
| am | 0.600*** | [0.158] | 0 | [0.144] | 0.338 | 0.360 |
| gear | 0.480* | [0.178] | 0 | [0.158] | 0.205 | 0.231 |
| carb | -0.551** | [0.168] | 0 | [0.150] | 0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
当所有变量都在一起时,R平方为0.869,调整后的R平方为0.807。因此,再加入9个变量来加入wt只能解释另外11%的变化(如果校正过度拟合,则只能增加5%)。(许多变量解释了与wt相同的mpg变化。)在该完整模型中,p值低于20%的唯一系数是wt,p = 0.089。