为什么非正态分布的错误会影响我们的重要性陈述的有效性?


10

考虑OLS模型时,存在一个正态性假设,即误差是正态分布的。我一直在浏览交叉验证,这听起来像Y和X不一定是正常的,以便使错误正常。我的问题是,为什么当我们出现非正态分布的错误时,重要性声明的有效性受到了损害?为什么置信区间太宽或太窄?

Answers:


9

为什么当我们有非正态分布的错误时,重要性声明的有效性受到了损害?为什么置信区间太宽或太窄?

置信区间基于分子和分母在t统计量中的分布方式。

对于正态数据,t统计量的分子具有正态分布,分母平方的分布(即方差)是卡方分布的特定倍数。当分子和分母也是独立的时(鉴于观测值本身是独立的,正态数据只会出现这种情况),整个统计量具有t分布。

β^-βsβ^βŤ

如果数据来自其他某种分布,则该统计信息将不会具有t分布。例如,如果拖尾很重,则t分布趋向于拖尾更轻(离奇的观察结果对分母的影响大于分子的影响)。这是一个例子。在这两种情况下,直方图都是针对10,000个回归的:

在此处输入图片说明

β=0-22

95%的t间隔(应包括我们样本中95%的斜率)在-2.048至2.048之间。对于正常数据,它实际上包括10000个样本斜率的95.15%。对于偏斜数据,它包括99.91%。


偏斜和重尾版本使用什么发行版?
gung-恢复莫妮卡

2
Ť
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.