回归:为什么要测试整体残差的正态性,而不是以为条件的残差?


10

我了解到,在线性回归中,误差假定为正态分布,并取决于y的预测值。然后,我们将残差视为错误的一种替代。

通常建议生成如下输出:在此处输入图片说明。但是,我不明白获取每个数据点的残差并将其混和到一个图中的意义是什么。

我知道我们不太可能有足够的数据点来正确评估在每个y预测值处是否都具有正常残差。

但是,是否不是我们的正常残差是否整体上是一个单独的残差,以及与每个y预测值处的正常残差的模型假设没有明确关系的问题?我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?


1
这个概念可能有一些好处-也许引导程序可以在这里有所帮助(以实现残差的复制)
概率

2
您能否为线性回归中的误差假定为正态分布提供参考,以y的预测值为条件(如果有)?
理查德·哈迪

发布问题时,我没有想到任何特定的消息来源,但是“建模假设是,响应变量通常在回归线(这是条件均值的估计值)周围正态分布,并且具有恒定的方差”。从这里。如果我对此有误,欢迎进一步的反馈。
user1205901-恢复莫妮卡

Answers:


17

我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?

否-至少不是在误差的方差恒定的标准假设下。

您可以将整体残差的分布视为正态分布的混合(每个级别对应一个)。通过假设,所有这些正态分布均具有相同的均值(0)和相同的方差。因此,这种正态混合的分布本身就是简单的正态分布。y^

因此,从中我们可以形成一点三段论。如果给定预测变量X的值的各个分布是正态的(并且它们的方差相等),则总残差的分布是正态的。因此,如果我们观察到总残差的分布显然不是正态的,则意味着给定X的分布在具有相等方差的情况下不是正态的。这违反了标准假设。


1
@Jake_Westfall,我不确定。我们知道具有联合高斯分布的变量的有限线性组合具有高斯分布。但是无限组合呢?换句话说,鉴于,为什么一定是正常的?那将取决于。请注意,由于,对或条件 实际上并没有任何改变。p ε | X p ε p X Ý = β 0 + β 1 X ÿ Xp(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
DeltaIV

是否应该说非正常边际允许我们“拒绝”非正常条件,但正常边际不允许我们“接受”正常条件?
shadowtalker '16

6
@DeltaIV,正态分布只有两个参数,均值和方差。如果误差是1)分布正态分布,2)均值零和3)方差常数,那么就没有什么可混的了。用符号。因此,因子脱离积分,积分积分为一并消失,而您仅剩下法线。的p混合为。p ε Ñ 0 σ 2Ñ 0 σ 2p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
法案

1
@Bill实际上可能是这里需要的基本点:。它以答案的措辞方式掩埋了ε | XN(0,σ2)εN(0,σ2)
Shadowtalker

@ssdecontrol来自答案:“ 如果给定预测变量X的值的各个分布是正态的(并且它们的方差相等),那么总残差的分布是正态的。 ”不知道我能得到多少清晰的信息?
Jake Westfall

3

有人当误差是同调的且序列不相关时,y的普通最小二乘(OLS)在线性无偏估计量中是最佳的。关于同余残差,残差的方差是相同的,而与我们在x轴上测量残差大小的变化无关。例如,假设我们的测量误差随着y值的增加而成比例地增加。然后,我们可以在进行回归之前获取这些y值的对数。如果这样做,则与不采用对数的比例误差模型进行拟合相比,拟合的质量会提高。通常,为了获得同质性,我们可能必须获取y或x轴数据,对数,平方根或平方根的倒数,或者应用指数。替代方法是使用加权函数,y模型2(ymodel)2y2比最小化更好。(ymodel)2

说了这么多,经常发生的是使残差更均等,使残差更正态分布,但是同等性质通常更为重要。后者取决于我们为什么执行回归。例如,如果数据的平方根比对数更正态分布,但是误差是成比例的类型,则对数的t检验对于检测总体或度量之间的差异将很有用,但可以找到期望值值,我们应该使用数据的平方根,因为只有数据的平方根是对称分布,其均值,众数和中位数均应相等。

此外,经常会发生这样的情况:我们不希望得到一个给出y轴值的最小误差预测值的答案,而这些回归可能会严重偏差。例如,有时我们可能希望回归以减少x中的误差。或者有时我们希望揭示y和x之间的关系,因此这不是常规的回归问题。然后,我们可能将Theil(即中位斜率,回归)用作x和y最小误差回归之间的最简单折衷。或者,如果我们知道x和y重复测量的方差是多少,则可以使用Deming回归。当我们有离群值时,Theil回归会更好,这对普通回归结果来说是可怕的事情。而且,对于中位斜率回归,残差是否为正态分布无关紧要。

顺便说一句,残差的正态性不一定会给我们任何有用的线性回归信息。例如,假设我们正在对两个独立的测量值进行重复测量。由于我们具有独立性,因此期望的相关性为零,并且回归线斜率可以是任何无斜率的随机数。我们进行重复测量以建立位置估计值,即平均值(或中位数(具有一个峰值的Cauchy或Beta分布)或总体上的总体期望值),并据此计算x的方差和方差在y中,然后可以将其用于Deming回归或其他任何操作。此外,假设如果原始总体是正常的,那么叠加就是相同的均值是正常的,这导致我们没有有用的线性回归。为了更进一步,假设然后我改变初始参数,并使用不同的蒙特卡洛x和y值函数生成位置建立新的测量值,并在第一次运行时整理该数据。则每个x值的y方向残差都是正常的,但是在x方向上,直方图将有两个峰,这与OLS假设不一致,并且我们的斜率和截距将有偏差,因为一​​个在x轴上没有相等的间隔数据。但是,整理数据的回归现在具有确定的斜率和截距,而以前则没有。此外,由于我们仅通过重复采样实际测试两个点,因此无法测试线性。实际上,出于相同的原因,相关系数将不是可靠的度量,

相反,有时还假定误差具有回归变量的正态分布。不需要用于所述OLS方法的有效性这种假设,尽管某些附加的有限样本性质可在当它(尤其是在假设检验的区域)的情况下成立,这里。那么,什么时候OLS可以正确回归?例如,如果我们在每天的同一时间收盘时对股票价格进行测量,那么就没有t轴(认为x轴)方差。但是,最后一笔交易(结算)的时间将是随机分布的,而用于发现变量之间的RELATIONSHIP的回归将必须合并两个方差。在这种情况下,y中的OLS只会估计y值中的最小误差,这对于推断结算的交易价格将是一个糟糕的选择,因为还需要预测该结算的时间本身。此外,正态分布的误差可能不如Gamma定价模型

那有什么关系 好吧,有些股票每分钟交易几次,而另一些则不是每天甚至每周都不交易,这可能会产生很大的数值差异。因此,这取决于我们需要什么信息。如果我们想问一下明天收盘时市场表现如何,这是OLS的“类型”问题,但是答案可能是非线性的非正态残差,并且需要拟合函数的形状系数与导数拟合(和/或更高的矩)相符,以建立用于外推的正确曲率。(例如,可以使用三次样条来拟合导数和函数,因此即使很少探讨,衍生协议的概念也不应令人惊讶。)如果我们想知道我们是否会赚钱对于特定股票,则我们不使用OLS,因为问题是二元的。


1
您是否可以说正常性就足够了,但对于进行有效的推断却不是必需的呢?为什么不仅仅专门测试异方差性呢?当然,残差的重尾(例如)边际分布不一定意味着条件正态性假设是错误的,不是吗?然而,重尾残差在设计上将无法通过残差的正态性检验。
shadowtalker's

对于t检验,同调往往更为重要。离群值使1.359 SD >> IQR降低了t检验的能力。然后尝试重新参数化或Wilcoxon测试,无论分布类型或异方差程度如何,后者在大多数情况下都可行(r> 0.9999时可能无效)。实际上,如果正在测试几个相似的参数,则Wilcoxon或t检验可以更好地分类出低概率和高概率,因此数据本身通常会声明更有用的东西。
卡尔,

使1.349 SD >> IQR。1.349是一个四分位数范围(IQR)的正态分布的SD数。某些分布(例如柯西分布或具有两个自由度的学生t分布)没有SD,离群值将其杀死,但它们确实具有IQR,然后使用Wilcoxon或其他非参数检验作为位置检验。
卡尔

经过进一步思考(请参见答案中的新材料),y轴残差的正态性很好,但不足。
卡尔

重尾分布会对回归方程式造成可怕的影响。例如,如果检查一个数据集中所有可能的斜率,则通常会得到一个柯西分布的斜率,即具有一个自由度的AKA Student's t。对于柯西分布,没有任何时间。即,可以计算平均值和标准偏差,并且拥有的数据越多,平均值和标准偏差将变得越不稳定。柯西分布的期望值是中位数,要计算平均值,就必须检查极值。
卡尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.