正态分布的X和Y是否更有可能导致正态分布的残差?


12

这里讨论了线性回归中对正态性假设的误解(“正态性”是指X和/或Y而不是残差),并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。

我的问题是:正态分布的X和Y 更有可能导致正态分布的残差吗?有很多相关的帖子,但是我不相信有人会问这个问题。

我意识到,如果只进行一次回归,那么这也许是微不足道的,但是如果有多个测试,那么就不那么重要了。假设我有100个X变量,且所有变量具有相同的偏斜度,我想测试所有这些变量。如果我将它们全部转换为正态分布,那么由于非正态分布的残差,我可能需要较少的X变量进行重新检验(具有不同/无转换),或者回归前的转换是完全任意的吗?


1
为了回答“更有可能”,我们​​可能不得不对联合分配提出一些假设,而不仅仅是利润。
Glen_b-恢复莫妮卡2014年

Answers:


15

YXYXXX+10X1/5X/πYXXYY|X)将相同。也就是说,与以前一样,它是否正常。(要更全面地理解该主题,它可以帮助您在此处阅读我的答案:如果残差是正态分布的,而Y不是,该怎么办?

XXYXXXY

有关非线性变换如何更改模型以及模型回答的问题(重点是对数变换)的更多信息,它可以帮助您阅读以下出色的CV线程:

XYβ^00Xβ^1 (m)=100×β^1 (cm)Y 在1米以上将上升100倍,在1厘米以上将上升)。


Y YYλYX


XY

YXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

在此处输入图片说明

在图中,我们看到两个边际都出现了合理的正态分布,联合分布看上去也出现了合理的双变量正态分布。尽管如此,残差的均匀性仍在其qq图中显示。两条尾巴相对于正态分布的下降速度都太快了(确实如此)。


0

简短的答案是在经典的简单回归理论中,X是固定的并且假定是已知的(例如,请参见http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/),即使没有任何测量错误,您的最小二乘贝塔系数也可能有偏差甚至不一致(请参阅https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measurement_handouts.pdf&cd = 2&ved = 0CCMQFjAB&usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ&sig2 = 4lAnOQO23FiZbZ7323jOzA)。

关于使X成为变量,关于高斯-马尔可夫定理的维基百科非常简短地指出:

“在大多数OLS处理中,假定数据X是固定的。对于诸如计量经济学之类的非实验性主要科学,该假设被认为是不适当的。[2]相反,高斯-马尔可夫定理的假设是在X的条件下陈述的”

我认为这是从科学到艺术或艺术/科学的重大转变。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.