为什么对方差进行回归?


19

我正在读这篇笔记

在第2页上,它指出:

“给定的回归模型可以解释多少数据差异?”

“回归解释是关于系数的均值;推论是关于它们的方差。”

我已经多次阅读过此类陈述,为什么我们会关心“给定的回归模型可以解释数据中的多少差异?”……更具体地说,为什么“差异”呢?


“ [V]差异”与标准偏差相反?您认为我们应该在回归中关注什么?建立回归模型的典型目标是什么?
gung-恢复莫妮卡

方差的单位与要建模的数量不同,因此,我总是很难解释“模型所解释的方差比例”。
2016年

Answers:


18

我们为什么要关心“给定的回归模型可以解释多少数据方差?”

为了回答这个问题,考虑一下回归模型解释的一定百分比的方差意味着什么是有用的。

令为结果变量。回归模型中因变量的通常样本方差是现在让是基于具有预测值最小二乘线性回归模型的预测。作为证明这里,高于该方差可以被划分为:1Y1,...,Yn ÿ ˚FXÿX1

1n1i=1n(YiY¯)2
Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

在最小二乘回归中,预测值的平均值为,因此总方差等于观察值和预测值之间的平均平方差(残差)加上预测本身的样本方差(解释) (仅是 s 的函数)。因此,可以将“解释的”方差视为中的方差,该方差可归因于的方差。中方差的比例是“已解释”的(即,中的变化比例归因于 XýXÿÿXY¯XYiXiYiYiXi)有时称为。 R2

现在我们用两个极端的例子来说明为什么这种方差分解很重要:

  • (1)预测变量与响应无关。在这种情况下,的最佳无偏预测变量(在最小二乘意义上)是。因此,的总方差刚好等于剩余方差,并且与预测变量的方差无关ÿ = ¯ ÿ ÿ XYiY^i=Y¯YiXi

  • (2)预测变量与预测变量完全线性相关。在这种情况下,预测完全正确,并且。因此,没有剩余方差,结果中的所有方差都是预测本身的方差,这仅是预测变量的函数。因此,结果中的所有方差仅是由于预测变量方差Y^i=YiXi

具有真实数据的情况通常会介于两个极端之间,而可归因于这两个来源的方差所占的比例也会如此。“解释方差”越多-即由于变化引起的的变化越多-预测的效果就越好(即, “剩余方差”),这是另一种说法,即最小二乘模型非常适合。 YiXiY^i


这就像我的回答,但可能会更好地解释。此外,我看到一个可能critque本来可以一提的是,我应该相对变化已经写入平均Y.的
迈克尔·Chernick

1
@MichaelChernick,是的,但至少是平方回归(我认为OP是基于链接的幻灯片进行讨论的),预测值的均值等于的均值,因此您可以将其称为样本方差预测。Y
2012年

我对答案进行了编辑,因为需要Yb才能使方差分解正常工作。
Michael R. Chernick

是的,对我来说很明显,她指的是最小二乘回归。您写的很多内容只是在重复我说的稍有不同。我仍然给了你+1。
Michael R. Chernick

1
宏,我的一点是,该分解仅发生并且因此“回归”固有地涉及的正交投影到包含常数向量的空间。请注意,我们可以通过简单地从模型中删除常数向量来轻松地“破坏”这种分解,这似乎与您最近的评论相冲突。yy^,y^y¯1=0
红衣主教

9

我无法与那些在我之前回答过的统计大人物竞争,也许我的想法很幼稚,但我是这样看的……

想象一下,您在汽车里,然后沿着道路行驶,左右转动车轮,疯狂踩油门踏板和刹车。然而,汽车行驶平稳,不受您的行为影响。您会立即怀疑自己不是在真正的汽车中,也许如果我们仔细观察,我们会确定您正在乘坐迪士尼世界。(如果您乘坐的是真正的汽车,那将有致命的危险,但是我们不要去那里。)

另一方面,如果您在汽车上行驶时,稍微向左或向右转动方向盘,则会立即导致汽车行驶,轻踩刹车会导致强烈的减速,而踩下油门踏板会使您回到行驶中座位。您可能会怀疑自己在一辆高性能跑车中。

通常,您可能会遇到这两种极端之间的情况。您的输入(转向,刹车,油门)直接影响汽车运动的程度为您提供了有关汽车质量的线索。也就是说,与您的动作相关的汽车运动变化越多,汽车就越好,并且汽车独立于控制而无法运动的越多,汽车就越糟。

yx1,x2,...,xiyy

yxixi yxiyxiy

PS我无法提出一个小熊维尼的比喻,但我尝试了。

PPS [编辑:]请注意,我正在解决这个特定问题。不要误认为如果您占方差的100%,您的模型将表现出色。您还需要考虑过度拟合的问题,因为您的模型非常灵活,以至于非常适合训练数据-包括其随机的怪癖和怪异现象。为了进行类比,您想要一辆具有良好转向和刹车性能的汽车,但又希望它在道路上行驶良好,而不仅仅是在您正在使用的测试赛道上行驶。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.