回归系数的多元正态分布?


12

在阅读有关回归的教科书时,我遇到了以下段落:

线性回归系数()向量的最小二乘估计为β

β^=(XtX)1Xty

当将其视为数据的函数(将预测变量视为常数)时,它是数据的线性组合。使用中心极限定理,可以证明如果样本量较大,的分布将近似为多元正态。yXβ

我肯定在文本中缺少某些内容,但是我不明白单个值如何具有分布?如何生成多个值以获得文本中提到的分布?ββ


4
β是回归系数的向量-可以消除混乱吗?
2012年

5
使用最小二乘法时,您假定是固定的,但未知。但是,是(随机)数据的函数,因此具有分布。渐近分布是正态分布。非渐近地,单个系数将处于分布状态。ββ^
泰勒

7
可能有助于观察到在回归设置中被视为常数矩阵,而是(向量值)随机变量的实现。但是,关于CLT的说法并不完全正确:它要么依赖于具有一定的结构,即使具有庞大的数据集,有时也不会实际发生这种情况;或者依赖于本身是多元正态的(但是这样就不必调用CLT)。H=(XtX)1XtyHy
ub

@Taylor但是,如果我唯一知道的是“样本量很大”,您如何知道B的分布?
2012年

2
@Taylor仅当回归模型中的误差成分是均值为0且方差恒定的高斯时,βvactor的各个分量才具有分布。在非正常情况下,您不一定会知道原假设下的分布,但它可能仍是渐近正态的。然而,正如胡布指出的那样,中心极限定理可能不成立,因为它是加权平均值,我们需要知道,权重不会随样本数量的变化而变化,这种方式允许几个项主导总和。
Michael R. Chernick

Answers:


5

如Taylor,不是具有分布,而是。的分布源于以下事实:对于不同的样本,您获得不同的。---您可以基于从单个样本接收到的单个来估计此分布,前提是您有一些有关基础数据分布的信息。ββ^β^β^β^

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.