是有用的或危险的?


233

我浏览 Cosma Shalizi的一些讲义(特别是第二堂课的 2.1.1节),并被提醒您,即使具有完全线性的模型,您也可以获得非常低的。R2

用Shalizi的示例来解释:假设您有一个模型,其中是已知的。然后\ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon],解释的方差量为a ^ 2 \ Var [X],因此R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon}}。它以\ Var [X] \ rightarrow 0的值变为0,并以\ Var [X] \ rightarrow \ infty的值变为1 。Y=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

相反,即使模型明显是非线性的,也可以得到较高的R2。(有人有很好的榜样吗?)

那么R ^ 2什么时候是R2有用的统计数据,什么时候应该忽略它?


5
请注意另一个最近的问题中
麻烦

36
我没有提供任何统计资料来补充给出的出色答案(尤其是@whuber的答案),但我认为正确的答案是“ R平方:有用危险”。几乎像任何统计数据一样。
彼得·富勒姆

32
该问题的答案是:“是”
Fomite

请参阅stats.stackexchange.com/a/265924/99274,以获得其他答案。
卡尔

脚本中的示例不是很有用,除非您可以告诉我们是什么?如果也是常数,则您的参数是错误的,因为但是,如果是非常数,请针对小对于作图,并告诉我这是线性的........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Answers:


264

要解决第一个问题,请考虑模型

Y=X+sin(X)+ε

iid的均值为零和有限方差。随着的范围(被认为是固定的或随机的),变为1。但是,如果的方差很小(大约1或更小),则数据“明显是非线性的”。在图中,。εXR2εvar(ε)=1

X的短距离

X的范围更广

顺便说一句,获得小的简单方法是将自变量切成狭窄的范围。回归(使用完全相同的模型)的每个范围内将具有低的即使当基于所有数据全回归具有高的。考虑这种情况是一个有益的练习,并且为第二个问题做好了充分的准备。R2R2R2

以下两个图使用相同的数据。完全回归的为0.86。切片的(从-5/2到5/2的1/2宽度)为.16,.18,.07,.14,.08,.17,.20,.12,.01 ,.00,从左到右阅读。如果有的话,在分割的情况下拟合会更好,因为10条单独的线可以在狭窄范围内更紧密地符合数据。虽然为所有切片都远远低于满,既没有关系的强度,所述线性度,也没有确实任何数据的方面(除的范围用于回归)已经改变。R2R2R2R2X

完全回归的点云

带有10个回归的切片点云

(可能有人反对这种切分程序会改变的分布。的确如此,但它仍然与固定效果建模中的最常用用法相对应,并揭示了告诉我们有关分布的程度在随机效应情况下的方差。特别是,当受约束在其自然范围的较小间隔内变化时,通常会下降。)XR2R2XXR2

的基本问题在于它取决于太多的东西(即使在多元回归中进行调整),但最主要的是取决于自变量的方差和残差的方差。通常,它告诉我们什么关于“线性”或“的关系的力量”,甚至“拟合优度”比较的车型序列。R2

大多数时候,您会发现比更好的统计量。对于模型选择,您可以查看AIC和BIC。为了表达模型的充分性,请看一下残差的方差。 R2

这终于使我们想到了第二个问题。可能会有用的一种情况是将自变量设置为标准值,从而基本控制其方差的影响。那么实际上是残差方差的代理,可以适当地进行标准化。R21R2


26
什么一个令人惊讶的全面和有效答案由@whuber
彼得·弗洛姆

AIC和BIC不会针对估计参数的数量进行显式调整吗?如果是这样,则与未经调整的R ^ 2进行比较似乎是不公平的。所以我问,您的批评是否持有调整后的R ^ 2?似乎如果您因“切片”而受到惩罚,则调整后的R ^ 2可以回头告诉您模型拟合的优劣。
russellpierce

7
@dr我的评论非常适用于调整后的。与调整后的之间只有很大差异的唯一情况是,您使用的是与数据相比的参数负载。在切片示例中,几乎有1,000个数据点,并且切片仅添加了18个参数。对的调整甚至不会影响小数点后第二位,除非可能在只有几十个数据点的末段中:它会降低它们,从而实际上增强了论点。R2R2R2R2
ub

5
您在第一个评论中对问题的答案应该取决于您的目标,并且有几种方法可以解释“测试线性关系”。一种是,您要测试系数是否为非零。另一个是,您想知道是否存在非线性的证据。 (本身)并不是非常有用,尽管我们知道具有大量数据的高意味着它们的散点图看起来大致呈线性-就像我的第二个例子或@macro的示例。对于每个目标,都有一个适当的检验及其关联的p值。R2R2
ub

4
对于第二个问题,我们应该怀疑“最佳”线性拟合的含义是什么。一个候选者将是使残差平方和最小化的任何拟合。您可以安全地使用作为代理,但是为什么不检查(调整后的)均方根误差呢?这是一个更有用的统计信息。R2
whuber

47

您的示例仅在模型中应包含变量。当人们使用通常的最小二乘估计时,它当然不适用。看到这一点,请注意,如果我们估算在你的榜样最小二乘法,我们得到:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
其中是的(样品)方差和是的(样本)平均值sX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

现在,第二项始终小于(极限等于),因此我们从变量获得对的贡献的上限11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

因此,除非,否则我们实际上会看到就像(因为分子变为零,但分母变为))。另外,取决于两个项的发散速度,我们可能使收敛到到之间的某个。现在上述术语通常发散的速度比如果应在模型中,并且如果速度较慢不应是在模型中。在两种情况下,都朝着正确的方向发展。(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

还要注意,对于任何有限数据集(即实数集),除非所有误差都完全为零,否则我们永远不可能有。这基本上表明是相对的度量,而不是绝对的度量。因为除非实际上等于,否则我们总能找到一个更好的拟合模型。这可能是的“危险”方面,因为它被缩放为介于和之间,看来我们可以在绝对意义上进行交织。R2=1R2R21R201

查看将变量添加到模型中时下降的速度可能更有用。最后,但并非最不重要的一点是,在变量选择中绝对不能忽略它,因为实际上是变量选择的足够统计量-它包含数据中有关变量选择的所有信息。唯一需要做的就是选择的下降量,该下降量与“拟合误差”相对应-通常取决于样本大小和变量数量。R2R2R2


4
+1好点。这些计算为以前的答复增加了定量的见解。
whuber

27

如果我可以添加一个示例,说明何时是危险的。许多年前,我从事一些生物识别数据的研究,那时又年轻又愚蠢,当我发现我使用逐步函数构建的花式回归的一些具有统计意义的值时,我感到非常高兴。直到后来我向广大国际观众发表演讲后,我才意识到,鉴于数据的巨大差异,再加上样本相对于人群的代表性较差,为0.02完全没有意义。即使它“具有统计意义” ...R2R2R2

那些从事统计工作的人需要了解数据!


15
如果您了解统计的含义,那么没有统计数据是危险的。肖恩的例子与R平方没有特殊关系,这是迷恋统计意义的普遍问题。在实践中进行统计检验时,我们只对有意义的差异感兴趣。两个种群永远不会具有相同的分布。如果它们接近相等,我们不在乎。使用非常大的样本量,我们可以检测到很小的不重要差异。这就是为什么在我的医学研究咨询中,我强调临床意义和统计学意义之间的差异。
迈克尔·切尔尼克

11
最初,我的客户经常认为统计意义是研究的目标。需要向他们证明事实并非如此。
迈克尔·切尔尼克

具有统计意义的值为0.02)仅表示您有足够的数据声称不为0。但是它接近于0。因此自变量和因变量之间的关系很少。R2R2
Michael Chernick

1
绝对同意迈克尔。一点统计知识可能很危险!:)基于多年前的洞察力,我通过进行大量研究以更好地理解统计学的真正含义,努力避免重复这种愚蠢的错误。拥有硕士学位和统计学博士学位,我仍然认为我的学业还有很长的路要走!
肖恩

谢谢肖恩。感谢您的评论和谦虚。
Michael Chernick

16

当您只有一个预测变量时,精确地解释为的变化比例,可以通过与的线性关系来解释。在查看的值时,必须牢记这种解释。R2YXR2

仅当非线性关系接近线性时,您才能从该关系中获得较大的。例如,假设其中和。如果您进行计算R2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

尽管关系显然不是线性的,但您会发现它大约为(我仅通过模拟来近似)。原因是在区间看起来非常像线性函数。.914eX(2,3)


1
对于Erik和Macro的以下评论,我认为没有人会帮我解决这个问题,最好有一个合并的答案,而不是三个单独的答案,但是为什么如此重要,以至于如此多的讨论都围绕着您如何写东西,在哪里写,而不是专心说什么?
Michael Chernick

8
@MichaelChernick,我认为关于人的写作方式没有太多“讨论”。我们尝试为您提供帮助的准则更多地是“如果每个人都这样做,该站点将非常混乱并且难以遵循”。似乎对这些事情进行了很多讨论,但这可能只是因为自加入以来您一直是非常积极的参与者,这很棒,因为您显然提出了很多建议。如果您想讨论更多,请考虑在meta上启动主题,而不是在我不相关的答案下进行评论讨论:)
Macro

如果您的示例中有一个更广泛的支持均匀分布的内容,那将会怎样?
Qbik

随着我在该站点上积累的经验,我必须同意Macro的观点,即简洁和整合非常重要。
Michael Chernick

15

您想避免一种情况是多元回归,其中在模型中添加无关的预测变量可能会增加。这可以通过使用调整后的值来解决,计算方法如下R2R2R2

R¯2=1(1R2)n1np1其中是数据样本数,是不计算常数项的回归数。np


21
注意,除非这些变量与现有变量完全共线,否则添加不相关的变量可以保证增加(不仅在“某些情况下”)。R2
ub

6
  1. 具有非线性函数的高一个很好的例子是二次函数限制为。如果噪点为0,则如果您拥有3个或更多点,则平方将不会为1,因为它们不能完美地位于一条直线上。但是,如果设计点均匀地分散在的那么您可能会感到很高。如果您在0附近有很多点,而在1附近有很多点,而中间几乎没有或根本没有,则可能不是这种情况。R2y=x2[0,1]R2[0,1]R2

  2. R2如果噪声项具有较大的方差,则在理想线性情况下将很差。因此,您可以采用模型,从技术上讲,它是一个理想的线性模型,但是让e的方差趋于无穷大,并且会变为0。数据解释了方差,因此它确实可以衡量拟合优度。高表示很适合,但对于拥有的数据集大小,参数过多可能导致我们仍然需要谨慎对待。Y=x+ϵR2R2

  3. 在多元回归的情况下,存在过度拟合的问题。添加变量,将始终增加。调整后的对此有所补救,因为它考虑了参数的数量。R2R2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.