零假设下线性回归中的分布是什么?为什么当时其模式不为零?


26

在原假设下,线性单变量多元回归中的确定系数或R平方的分布是什么?R2H0:β=0

它如何取决于预测变量数量和样本数量?此分布方式是否有封闭形式的表达式?kn>k

特别是,我有一种感觉,对于简单回归(具有一个预测变量),此分布的众数为零,但对于多重回归,其众数为非零正值。如果确实是这样,是否对这种“相变”有直观的解释?x


更新资料

如下@Alecos所示,当和时,分布确实在零处达到峰值,而当时,分布则不在零处。我觉得应该对这种相变有一个几何的看法。考虑OLS的几何视图:是的向量,在此处定义一个维子空间。OLS等于将投影到该子空间上,并且是和其投影之间的角度的平方余弦。k=2k=3k>3yRnXkyR2ÿyy^

现在,从@Alecos的答案可以得出结论,如果所有向量都是随机的,则对于和,该角度的概率分布将在处达到峰值,但在对于。为什么?!90k=2k=3<90k>3


更新2:我接受@Alecos的回答,但仍然感觉我在这里缺少一些重要的见解。如果有人对这种现象提出任何其他(无论是几何还是非几何)观点,使它变得“显而易见”,我将很乐意提供悬赏。


1
您愿意承担错误的正常性吗?
Dimitriy V. Masterov 2014年

1
是的,我想必须假设它使这个问题可以回答(?)。
变形虫说恢复莫妮卡2014年


1
@Khashaa:实际上,我必须承认我确实在找到问题之前已经找到了该Blogspot页面。老实说,我仍然想在我们的论坛上讨论这个现象,所以我装作没有看到。
变形虫说恢复莫妮卡2014年

1
与简历问题密切
Alecos Papadopoulos

Answers:


33

对于特定的假设(所有回归系数均为零,包括常数项(在此检验中未进行检验))并且在正态下,我们知道(例如见Maddala 2001,第155页,但请注意,计入了没有常数项的回归变量,因此表达式看起来有点不同)k

Fk1nk

F=nkk1R21R2
作为中心随机变量分布。F(k1,nk)

请注意,尽管我们不测试常数项,但也会对其进行计数。k

四处移动,

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

但是右侧是Beta分布,特别是

R2Beta(k12,nk2)

这种分布模式

modeR2=k121k12+nk22=k3n5

有限和唯一模式
根据以上关系,我们可以推断出要使分布具有唯一和有限模式,我们必须具有

k3,n>5

这与Beta分发的一般要求是一致的,即

{α>1,β1},OR{α1,β>1}

因为可以从这个CV线程推断出来或在这里阅读。
请注意,如果,我们将获得均匀分布,因此所有密度点均为众数(有限但非唯一)。这就产生了一个问题:为什么,如果分布为ķ = 3 Ñ = 5 - [R 2 ù 0 1 {α=1,β=1}k=3,n=5R2U(0,1)

含义
假设您有回归变量(包括常数),并且观测值。相当不错的回归,没有过度拟合。然后n = 99k=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

和密度图

在此处输入图片说明

请直觉:这是在没有回归变量实际上属于回归的假设下的分布。因此,a)分布独立于回归变量,b)随着样本量的增加,其分布集中于零,因为增加的信息淹没了可能产生某种“拟合”的小样本变异性,而且c)随着无关回归变量的数量在给定样本量的情况下,如果增加,则分布集中于,我们有“虚假拟合”现象。 1R21

但也要注意,否定原假设是多么“容易”:在特定示例中,对于累积概率已经达到,因此获得的将拒绝“无意义回归”的原假设。显着性水平为%。0.99 R 2 > 0.13 1R2=0.130.99R2>0.131

附录
为了响应有关分布模式的新问题,我可以提供以下思路(非几何方法),将其与“虚假拟合”现象联系起来:在数据上执行最小二乘法时集合,我们本质上解决了一个由具有未知数的线性方程组组成的系统(与高中数学的唯一区别是,那时我们称为“已知系数”,在线性回归中称为“变量/回归”,“未知x”是什么)我们现在称为“未知系数”和“常数项”,我们称为“因变量”)。只要 n k k < n 1 R 2 k = nR2nkk<n系统是过度识别的,没有精确的解决方案,只有近似值-差异显示为“因变量的无法解释的方差”,由捕获。如果则系统具有一个精确解(假设线性独立)。在这两者之间,随着我们增加的数量,我们减少了系统的“过度识别度”,并且“朝着”单个精确解“前进”。在这种观点下,有道理的是为什么随着不相关的回归而虚假地增加,因此,为什么当给定增加,其模式逐渐向移动。1R2k=nR 2 1 k nkR21kn


1
它的数学。对于,β分布的第一个参数(标准符号中的“ ”)变得小于1。在那种情况下,Beta发行版没有有限模式,请试用keisan.casio.com/exec/system/1180573226以查看形状如何变化。αk=2α
Alecos Papadopoulos 2014年

1
@Alecos很好的答案!(+1)我是否可以强烈建议您在答案中添加存在该模式的要求?通常用和但更巧妙的是,如果相等是两个的其中之一,那是可以的 ...我认为对于我们来说,它变为,这些不平等中至少有一个是严格的β > 1 ķ 3 Ñ ķ + 2α>1β>1k3 nk+2
银鱼

2
@Khashaa除非理论上有要求,否则我绝不会从回归中排除截距-它是因变量,回归变量或没有回归变量的平均水平(并且该水平通常是正的,因此这是愚蠢的自我造成的错误指定忽略它)。但是我总是将其排除在回归的F检验之外,因为我关心的不是因变量是否具有非零的无条件均值,而是回归器对于偏离该均值是否具有解释力。
Alecos Papadopoulos

1
+1!对于非零,的分布是否有结果?β ĴR2βj
Christoph Hanck


18

我不会在@Alecos的出色答案中重新分配分布(这是标准结果,请参阅此处以获取其他信息)很好的讨论),但我想填写有关后果的更多详细信息!首先,对于和值范围,的零分布是什么样的?@Alecos的答案中的图形可以很好地说明实际多元回归中发生的情况,但有时从较小的案例中可以更容易地获得见识。我已经包括了均值,众数(存在)和标准偏差。图表/表格值得关注:以全尺寸观看时效果最佳R2nknkBeta(k12,nk2)R2nk。我本来可以包含较少的方面,但是模式会不太清楚;我附加了R代码,以便读者可以尝试使用和不同子集。nk

小样本量的R2分布

形状参数值

图形的颜色方案指示每个形状参数是小于一个(红色),等于一个(蓝色)还是大于一个(绿色)。左侧显示的值,而在右侧。由于,因此当我们从一列移到另一列时,它的值在算术级数中会以的共同差值增加(在模型中添加回归变量)而对于固定,减少。每行的总是固定的(对于给定的样本大小)。如果相反,我们修复β α = ķ - 1αβ 1α=k12 Ñβ=ñ-ķ12n 1β=nk2 α+β=ñ-112 ķαβ1α+β=n12k并向下移动该列(将样本大小增加1),然后保持不变,增加。用回归术语来说,是模型中包含的回归变量的一半,是剩余自由度的一半。为了确定分布的形状,我们对或等于1的位置特别感兴趣。αβ12αβαβ

对于,代数很简单:我们有所以。实际上,这是构面图中唯一在左侧填充为蓝色的列。类似地,对于(列在左侧为红色),对于,(从列起,左侧为绿色)。αk12=1k=3α<1k<3k=2α>1k>3k=4

对于我们有因此。请注意,这些案例(标有蓝色右侧)是如何在小平面图中横切一条对角线的。对于我们得到(带有绿色左侧的图形位于对角线的左侧)。对于我们需要,这仅涉及我图上最右边的情况:在我们有且分布是退化的,但在,绘制(右侧为红色)。β=1nk2=1k=n2β>1k<n2β<1k>n2n=kβ=0n=k1β=12

由于PDF是,因此很明显,如果(且仅当)然后为。我们可以在图中看到这一点:当左侧被遮蔽红色,为0观察行为类似地,当则作为。看右边是红色的地方!f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

对称性

图表最醒目的功能之一是对称性,但是当涉及Beta分布时,这并不奇怪!

如果则Beta分布本身是对称的。对于我们来说,如果可以正确识别面板,,和。上的分布对称程度取决于我们在模型中针对该样本量包含的回归变量。如果,则的分布在0.5左右完全对称;如果我们包含的变量少于该变量,变量将变得越来越不对称,并且质量的大部分概率移近Ñ = 2 ķ - 1 ķ = 2 Ñα=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.5k=n+12R2R2=0; 如果我们包含更多变量,则它会更接近。请记住,在其计数中包括了截距,并且我们在空值下工作,因此在正确指定的模型中,回归变量的系数应为零。R2=1k

对于任何给定的(即构面网格中的任何行),分布之间也显然存在对称性。例如,将与。是什么原因造成的?回想一下是在的镜像。现在我们有了和。考虑,我们发现:k = 3 n = 9 n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.5αk,n=k12βk,n=nk2k=nk+1

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

因此,这解释了对称性,因为我们针对固定样本大小更改了模型中回归变量的数量。在特殊情况下,它还解释了本身是对称的分布:对于它们,因此它们必须与自己对称!k=k

这告诉我们一些我们可能没有想到的关于多元回归的方法:对于给定的样本量,并且假设没有回归变量与有真正的关系,使用回归变量加截距的模型具有相同的分布就像对于剩余剩余自由度的模型所做的那样nYR2k11R2k1

特别发行

当我们有,这不是有效参数。但是,当,分布会随着尖峰而退化,从而。这与我们对具有与数据点一样多参数的模型所了解的一致-它可以实现完美拟合。我没有在图表上绘制简并分布,但包括均值,众数和标准差。k=nβ=0β0P(R2=1)=1

当和我们得到,它是反正弦分布。这是对称的(因为)和双峰的(0和1)。由于这是和(两侧都标记为红色)的唯一情况,因此这是我们唯一的分布,在支撑的两端均达到无穷大。k=2n=3Beta(12,12)α=βα<1β<1

的分布是唯一的Beta分布是矩形(均匀)。从0到1的所有值都是同等可能。的唯一组合和为其时是和(标在两侧蓝色)。Beta(1,1)R2knα=β=1k=3n=5

先前的特殊情况适用范围有限,但是和(左侧为绿色,右侧为蓝色)的情况很重要。现在所以我们有一个[0,1]上的幂律分布。当然,我们不太可能在出现这种情况时执行和的回归。但是,根据先前的对称性参数或PDF上的一些平凡代数,,这是具有两个回归数和对非平凡样本大小的截距的多次回归的常见过程。α>1β=1f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5R2将遵循下[0,1]上的反射幂律分布。H0这对应于和因此在左侧标记为蓝色,在右侧标记为绿色。α=1β>1

您可能还注意到处的三角分布及其反射。从他们的和看出,它们只是幂律和反射幂律分布的特例,其中幂为。(k=5,n=7)(k=3,n=7)αβ21=1

模式

如果和,则图中的所有绿色是凹形的,其中且Beta分布具有唯一模式。将它们用和,条件为且而模式为。α>1β>1f(x;α,β)f(0)=f(1)=0α1α+β2knk>3n>k+2k3n5

上面已经处理了所有其他情况。如果我们放松不等式以允许,那么我们将包括(绿色-蓝色)幂律分布,其中且(等效地,)。这些情况显然具有模式1,因为,所以实际上与先前的公式一致。相反,如果我们允许但仍然要求,那么我们将找到且的(蓝绿色)反射幂律分布。它们的模式为0,与。但是,如果我们同时放松两个不等式以允许β=1k=n2k>3n>5(n2)3n5=1α=1β>1k=3n>533n5=0α=β=1,我们将找到和的(全蓝色)均匀分布,它没有唯一的模式。此外,在这种情况下,不能使用先前的公式,因为它将返回不确定的形式。k=3n=53355=00

当我们得到模式1的简并分布。当(按回归术语,,只有一个剩余自由度),则为,并且(按回归术语,是一个具有截距和一个回归变量的简单线性模型),则为。除了在和(将简单线性模型拟合到三个点)(在0和1处为双峰)的异常情况之外,这些都是独特的模式。 n=kβ<1n=k1f(x)x1α<1k=2f(x)x0k=2n=3

意思

这个问题询问了模式,但是在零下的平均值也很有趣-它具有非常简单的形式。对于固定样本大小,随着向模型中添加更多回归变量,其算术级数增加,直到时平均值为1 。Beta分布的平均值为因此从我们较早的观察中不可避免地得出这样的算术级数:对于固定,总和是恒定的,但是增加0.5对于添加到模型的每个回归变量。R2k1n1k=nαα+βnα+βα

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

地块代码

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
真正具有启发性的可视化。+1
Khashaa 2014年

很好,+ 1,谢谢。我注意到当(且无其他地方)时分布变为时,您将模式称为-上面的@Alecos(在注释中)不希望这样做。我同意你的看法:这很方便。0+x0
变形虫说恢复莫妮卡2014年

1
图中的@amoeba我们想说“最有可能在0左右的值”(或1)。但是Alecos的答案也是自洽的,并且与许多权威机构保持一致(人们对于0和1句点止损的处理方式有所不同,更不用说是否可以将其视为一种模式了!)。我使用此模式的方法与Alecos不同,主要是因为我使用alpha和beta上的条件来确定公式适用的位置,而不是以我的出发点为公式并查看哪个k和n给出了明智的答案。
银鱼

1
(+1),这是一个非常实用的答案。通过将得太接近且都太小,问题就得以详细研究,并且具有决定性的意义是,对于具有相对过多且不相关的回归变量的很小样本的情况。kn
Alecos Papadopoulos

@amoeba您可能已经注意到,这个答案提供了一个代数答案,为什么对于足够大的,对于,分布模式为0,而对于则为正。由于然后对于我们有,对于,其模式显然为0 ,而对于我们有的最大值可以通过微积分找到为引用的模式公式。随着增加,的幂增加0.5。就是这个nk=3k>3f(x)x(k3)/2(1x)(nk2)/2k=3f(x)(1x)(n5)/2n>5k=4 ķX X α - 1个 ˚F0=0f(x)x1/2(1x)(n6)/2kxxα1因子使因此在0时f(0)=0
终止
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.