在阅读有关回归的教科书时,我遇到了以下段落:
线性回归系数()向量的最小二乘估计为
当将其视为数据的函数(将预测变量视为常数)时,它是数据的线性组合。使用中心极限定理,可以证明如果样本量较大,的分布将近似为多元正态。
我肯定在文本中缺少某些内容,但是我不明白单个值如何具有分布?如何生成多个值以获得文本中提到的分布?
4
使用最小二乘法时,您假定是固定的,但未知。但是,是(随机)数据的函数,因此具有分布。渐近分布是正态分布。非渐近地,单个系数将处于分布状态。
—
泰勒
可能有助于观察到在回归设置中被视为常数矩阵,而是(向量值)随机变量的实现。但是,关于CLT的说法并不完全正确:它要么依赖于具有一定的结构,即使具有庞大的数据集,有时也不会实际发生这种情况;或者依赖于本身是多元正态的(但是这样就不必调用CLT)。
—
ub
@Taylor但是,如果我唯一知道的是“样本量很大”,您如何知道B的分布?
—
2012年
@Taylor仅当回归模型中的误差成分是均值为0且方差恒定的高斯时,βvactor的各个分量才具有分布。在非正常情况下,您不一定会知道原假设下的分布,但它可能仍是渐近正态的。然而,正如胡布指出的那样,中心极限定理可能不成立,因为它是加权平均值,我们需要知道,权重不会随样本数量的变化而变化,这种方式允许几个项主导总和。
—
Michael R. Chernick