线性回归和数据缩放


10

下图显示了通过线性回归获得的系数(以mpg作为目标变量,所有其他作为预测变量)。

对于mtcars数据集(此处此处),无论是否缩放数据:

在此处输入图片说明

如何解释这些结果?仅当数据缩放后,变量hpdisp才有意义。是amqsec同样重要或am比数量更为重要qsec?一个人应该说哪个变量是重要的决定因素mpg

感谢您的见解。


如果您不介意,您可以只运行几个不同的模型并交叉检查哪些功能实际上很重要吗?当我们对不同的列使用不同的比例尺而它们之间的比例差异非常大时,就完成了数据的比例缩放,很明显,比例尺可以帮助模型找到我对数据的真实见解,而无需进行比例缩放,模型没有任何选择,但是要给具有较大比例的变量赋予更多的权重,前提是您预测的也是一个高数字
。– Aditya

感谢您对情节的评论。我不确定“运行几种不同的模型”是什么意思。您是否可以使用其他一些技术(例如神经网络)找出哪些功能真正重要,以便可以与线性回归的发现进行比较。
rnso

抱歉,不清楚,我的意思是尝试使用不同的ml算法(例如基于树的算法)并比较其所有功能的重要性
。– Aditya

Answers:


4

hp和disp的系数在不按比例缩放数据时较低,而在按比例缩放数据时较高,这意味着这些变量有助于解释因变量,但其大小较大,因此在不按比例缩放的情况下,系数必须较低。

在“重要性”方面,我要说的是,在定标的情况下,系数的绝对值是衡量重要性的好方法,比在未定标的情况下更重要,因为在那里变量的大小也很重要,应该不。

当然,更重要的变量是wt。


4

在这种情况下,如果没有标准错误,就无法真正讨论重要性。它们与变量和系数成比例。此外,每个系数都取决于模型中的其他变量,并且共线性实际上似乎在夸大hp和disp的重要性。

重新定标变量根本不应该改变结果的重要性。确实,当我重新进行回归分析时(按原样使用变量,并通过减去均值并除以标准误差进行归一化),每个系数估计值(常数除外)与缩放前的t统计量完全相同,并且F检验的总体重要性保持完全相同。

也就是说,即使所有变量均按比例缩放为均值零且方差为1,对于每个回归系数也没有一个标准误差大小,因此仅查看变量中每个系数的大小即可。标准化回归仍然对意义产生误导。

正如David Masip解释的那样,系数的表观大小与数据点的大小成反比关系。但是,即使disp和hp的系数很大,它们与零的差异仍然不大。

实际上,hp和disp高度相关,r = .79,因此这些系数的标准误差相对于系数幅度特别高,因为它们是共线的。在这种回归中,他们进行了怪异的平衡,这就是为什么一个系数为正,而系数为负的原因。这似乎是过度拟合的情况,似乎没有意义。

查看哪些变量可以解释mpg的最大变化是一个很好的方法,即(调整后的)R平方。实际上,y的变化百分比由x变量的变化来解释。(调整后的R平方包括方程式中每个其他x变量的轻微损失,以抵消过度拟合的情况。)

鉴于其他变量,一种查看重要数据的好方法是,当您从回归中忽略该变量时,查看调整后R平方的变化。该变化是在其他变量保持不变之后,该因子解释的因变量的方差百分比。(通常,您可以使用F检验测试遗留变量是否重要;这是变量选择的逐步回归的工作方式。)

为了说明这一点,我分别对每个变量进行了一次线性回归,以预测mpg。单独的变量wt可以解释mpg变化的75.3%,没有一个变量可以解释更多。但是,许多其他变量与wt相关,并解释了一些相同的变化。(我使用了鲁棒的标准误差,这可能会导致标准误差和重要性计算上的细微差别,但不会影响系数或R平方。)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

当所有变量都在一起时,R平方为0.869,调整后的R平方为0.807。因此,再加入9个变量来加入wt只能解释另外11%的变化(如果校正过度拟合,则只能增加5%)。(许多变量解释了与wt相同的mpg变化。)在该完整模型中,p值低于20%的唯一系数是wt,p = 0.089。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.