为什么非正态分布的错误会影响我们的重要性陈述的有效性？

考虑OLS模型时，存在一个正态性假设，即误差是正态分布的。我一直在浏览交叉验证，这听起来像Y和X不一定是正常的，以便使错误正常。我的问题是，为什么当我们出现非正态分布的错误时，重要性声明的有效性受到了损害？为什么置信区间太宽或太窄？

regression statistical-significance assumptions normality-assumption

— 用户名
source

为什么当我们有非正态分布的错误时，重要性声明的有效性受到了损害？为什么置信区间太宽或太窄？

置信区间基于分子和分母在t统计量中的分布方式。

对于正态数据，t统计量的分子具有正态分布，分母平方的分布（即方差）是卡方分布的特定倍数。当分子和分母也是独立的时（鉴于观测值本身是独立的，正态数据只会出现这种情况），整个统计量具有t分布。

$\frac{\hat \beta - \beta}{s_{\hat\beta}}$ $\beta$ $t$

如果数据来自其他某种分布，则该统计信息将不会具有t分布。例如，如果拖尾很重，则t分布趋向于拖尾更轻（离奇的观察结果对分母的影响大于分子的影响）。这是一个例子。在这两种情况下，直方图都是针对10,000个回归的：

在此处输入图片说明

$\beta=0$ $(-2,2)$

95％的t间隔（应包括我们样本中95％的斜率）在-2.048至2.048之间。对于正常数据，它实际上包括10000个样本斜率的95.15％。对于偏斜数据，它包括99.91％。

— Glen_b-恢复莫妮卡
source

偏斜和重尾版本使用什么发行版？

— gung-恢复莫妮卡

t

$t$