回归系数的估计是否不相关?


11

考虑一个简单的回归(不假设正态性):其中的均值为,标准差为。和的最小二乘估计是否不相关?

Yi=a+bXi+ei,
ei0σab

2
你怎么看?en.wikipedia.org/wiki/Ordinary_least_squares的 “有限样本属性”部分。这个问题在这个网站上已经回答了很多次。
mpiktas 2014年

Answers:


15

在设计实验时,这是一个重要的考虑因素,在这种情况下,可能需要估计之间没有(或很少)相关性 a^b^。这种缺乏相关性可以通过控制Xi


分析效果 Xi 根据估算值 (1,Xi) (是长度为行的向量 2)垂直组装成矩阵 X中,设计矩阵,因为有数据和(显然)两列具有尽可能多的行。相应的Yi 被组装成一个长(列)向量 y。在这些方面,写作β=(a,b) 对于组装系数,模型为

E(Y)=Xβ

Yi (通常)假定为独立随机变量,其方差为常数 σ2 对于一些未知 σ>0。相关观察y 被视为向量值随机变量的一种实现 Y

OLS解决方案是

β^=(XX)1Xy,

假设这个矩阵逆存在。因此,利用矩阵乘法和协方差的基本属性,

Cov(β^)=Cov((XX)1XY)=((XX)1Xσ2X(XX)1)=σ2(XX)1.

矩阵 (XX)1 只有两行两列,对应于模型参数 (a,b)。的相关性a^b^ 与...的非对角线元素成比例 (XX)1,根据克莱默法则,它与两列的点积成比例X。由于其中一列是全部1s,其点积与另一列(由 Xi)是他们的总和,我们发现

a^b^ 是不相关的,当且仅当 Xi 是零。

这种正交条件常常被实现recenteringXi(通过从中减去它们的均值)。虽然这不会改变估计的斜率b^,它的确会改变估计的截距 a^。这是否重要取决于应用程序。


该分析适用于多元回归:设计矩阵将具有 p+1p 自变量(附加列包括 1s)和 β 将是长度的向量 p+1,但除此之外,一切都会像以前一样进行。

用常规语言,两列 X当它们的点积为零时称为正交。当一列X (例如列 i)与所有其他列正交,这是一个容易证明的代数事实,即行中所有非对角线的条目 i 和列 i(XX)1 为零(即 ijji 所有组件 ji为零)。所以,

两个多元回归系数估计 β^iβ^j 每当设计矩阵的相应列中的任意一个(或两个)与所有其他列正交时,它们是不相关的。

许多标准实验设计包括选择自变量的值以使列相互正交。通过保证在收集任何数据之前“分离”最终的估计,这些估计将是不相关的。(当响应具有正态分布时,这意味着估计将是独立的,这大大简化了它们的解释。)


答案是“非对角线元素,它们只是X的两列的点积。” 这是真的XX,不是 (XX)1然而?
海森堡

@海森堡这是一个好点。我对此不清楚。在两列的情况下并没有歧义,但是在更多列的情况下,我需要考虑如何改善表示方式。
whuber

@Heisenberg我感谢您的感性观察:它使我能够纠正多元回归案例讨论中的重大错误。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.