如何将和包括在回归中,以及是否将它们居中?


9

我想将项及其平方(预测变量)包括在回归中,因为我假设低值对因变量有积极影响,而高值则有负面影响。在应该捕获更高价值的作用。因此,我期望的系数为正,的系数为负。除了,我还包括其他预测变量。xx2xx2xx2x

我在这里读过一些文章,在这种情况下,最好将变量居中以避免多重共线性。 进行多元回归时,何时应将预测变量居中以及何时应对其进行标准化?

  1. 我应该分别将两个变量居中(平均)还是应该仅居中然后取平方,还是应该仅居中并包含原始?xx2x

  2. 如果是一个计数变量,是否有问题?x

为了避免成为计数变量,我考虑过将其除以理论上定义的面积,例如5平方公里。这应该有点类似于点密度计算。x

但是,恐怕在这种情况下,如和x²= 4时,我对系数符号的最初假设将不再成立。x=2x²=4

x=2/5 km2 = 0.4 km2

但是x2会更小,因为 x2=(2/5)2=0.16


1
您的回归软件将自动处理数值问题-特别是,它很可能在内部对数据进行居中和标准化。如何回答有关居中的问题归结为您希望如何解释系数。
ub

Answers:


4

您的问题实际上包含几个子问题,我将尽我所能设法解决这些问题。

  • 如何区分低值和高值对回归的依赖性?

考虑和是一种实现方法,但是您确定测试是结论性的吗?您能否得出对回归的所有可能结果有用的结论?我认为事先明确提出问题会有所帮助,而提出类似和相关的问题也会有所帮助。例如,您可以考虑的阈值,其斜率不同。这可以使用主持人变量来完成。如果不同的斜率(同时施加相同的截距)是兼容的,那么您就没有区别,否则您为自己提供了明确的理由来说明它们的区别。xx2x

  • 您什么时候应该居中和标准?

我认为这个问题不应与第一个问题和测试混在一起,而且恐怕事先以或为中心可能会使结果产生偏差。我建议至少在第一阶段不要居中。请记住,您可能不会死于多重共线性,许多作者认为这等同于使用较小的样本量(此处此处)。xx2

  • 将离散计数变量转换为(连续)浮点变量是否会改变结果的解释?

是的,但是,这在很大程度上取决于前两点,因此我建议您一次解决一件事。我没有理由不进行这种转换就无法进行回归,因此,我建议您暂时忽略它。还要注意,通过除以一个公共元素,您可以更改的比例,但是有完全不同的查看方式,就像我上面写的那样,其中更明确地考虑了该阈值。x2=x


非常感谢您的回答,尤其是链接!!!
彼得

很高兴能提供帮助。=)
pedrofigueira

4

通常,居中可以帮助减少多重共线性,但是“您可能不会死于多重共线性”(请参阅​​predrofigueira的回答)。

最重要的是,通常需要居中以使截距有意义。在简单模型,截距定义为的预期结果。如果值为零没有意义,则itercept都不有意义。将变量置于其平均值中心通常很有用;在这种情况下,预测变量的形式为,截距是对象的预期结果,该对象的值等于均值。yi=α+βxi+εx=0xx(xix¯)αxix¯

在这种情况下,必须先将居中,然后再平方。您不能将和分别居中,因为您正在将结果回归到“新”变量,因此必须对这个新变量平方。居中意味着什么?xxx2(xix¯)x2

如果计数变量的均值有意义可以将其居中,但是可以缩放它。例如,如果并且“ 2”可以是基线,则可以减去2:。截距成为上的值等于“ 2”(参考值)的对象的预期结果。x=1,2,3,4,5(xi2)=1,0,1,2,3xi

至于除法,没有麻烦:您估计的系数会更大!§4.1的Gelman和Hill给出了一个示例:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

1英寸是毫米,所以是。一英寸是 emiles,所以是。但是这三个方程是完全等价的。25.4511300/25.41.6e5810000001300/1.6e5



感谢您的回答Sergio。它真的帮助了我。不幸的是,我只能将一个答案标记为我接受的答案。
彼得

别客气。不用担心;-)
塞尔吉奥

1

我假设x的低值对因变量有正面影响,而x的高值则有负面影响。

尽管我欣赏其他人对系数居中和解释的处理,但是您在此处描述的只是线性效应。换句话说,您所描述的内容并不表示需要测试x的平方。


在我看来,如果,则对的(部分)影响(或更佳地,对)是。这样的影响是恒定的,它们的水平无关。如果模型为,则的部分效果为并且取决于的级别。这也可能在其他模型中发生,例如在线性样条模型中,但在简单的线性(一度)模型中则不会发生。我错了吗?y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
塞尔吉奥2014年

@ rolando2:我不确定我们是否谈论过这件事。如果我仅包括常规预测变量,那么我将获得该预测变量的估计系数,该系数可以为正或为负。基于系数,我可以说通过在x上加上一个单位,y会增加或减少一定量。但是我无法以这种方式找出小值是否实际上导致y的增加,而更高的值(从某个未知点开始)是否导致y的减小。
彼得

@Peter-我理解,我建议您将问题的“我假设”句子编辑为:“我认为,在x的某些区域中,x的较高值对因变量有积极影响,而在其他某些区域,较高的值会有负面影响。”
rolando2 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.