Answers:
正态分布是许多有意义的统计问题中的大样本分布,这些问题涉及某种形式的中央极限定理:您有(大约)条独立的信息要累加起来才能得出答案。如果参数估计值渐近正常,则其功能也将渐近正常(在常规情况下)。
另一方面,学生分布是在更严格的条件下,即正态回归误差导出的。如果您可以购买此假设,则可以购买用于检验线性回归假设的分布。与使用正态分布相比,使用此分布可提供更大的置信区间。其实质含义是,在小样本中,您需要估计不确定性的量度,回归均方误差或残差的标准偏差。(在大样本中,您大概知道了一样多的信息,因此分布会退化为正态分布。)吨σ 吨
在线性回归中,即使使用有限样本,在某些情况下也无法证明学生分布合理。它们与违反回归误差的二阶条件有关;即,它们是(1)恒定方差,和(2)是独立的。如果违反了这些假设,并且您使用Eicker / White估计器校正了异方差但独立的残差,则可以纠正标准误差;或Newey-West估计器的序列相关误差或聚类标准误差对于与群集相关的数据,您无法为学生分配拉出合理的理由。但是,通过采用适当版本的渐近正态性自变量(四边形数组等),您可以证明正态近似的合理性(尽管您应该记住,您的置信区间很可能太窄了)。
我喜欢将学生t分布表示为正态分布和gamma分布的混合物:
注意,伽马分布的平均值为并且该分布的方差为。因此,我们可以将t分布视为将常方差假设推广为“相似”方差假设。 基本上控制我们允许差异的相似程度。您也将其视为“随机加权”回归,因为我们可以将上述积分用作“隐藏变量”表示形式,如下所示:
其中和所有变量都是独立的。实际上,这基本上只是t分布的定义,如
您可以看到为什么此结果使学生t分布与正常值相比“更稳健”,因为较大的误差可能由于较大的值或较小的值而发生。现在,因为对所有观察都是通用的,但是专门针对第i个,因此得出的一般“常识”是,离群值为小提供了证据。此外,如果要进行线性回归,则假定已知,您将发现是第i个观察值的权重:
因此,异常值构成了小的证据,这意味着第i个观测值的权重较小。另外,一个小的“异常值”(一个比其他预测值更好/更适合的观测值)构成了大证据。因此,将在回归分析中赋予此观察更多的权重。这与对异常值或良好数据点的直观判断是一致的。ρ 我
请注意,没有确定这些事情的“规则”,尽管我和其他人对此问题的回答可能对找到您可以沿有限方差路径进行的某些测试有用(学生t是自由度小于或等于的无限方差)到两个)。