Answers:
我们为什么要关心“给定的回归模型可以解释多少数据方差?”
为了回答这个问题,考虑一下回归模型解释的一定百分比的方差意味着什么是有用的。
令为结果变量。回归模型中因变量的通常样本方差是现在让是基于具有预测值最小二乘线性回归模型的预测。作为证明这里,高于该方差可以被划分为:1 ÿ我≡ ˚F(X我)ÿ我X我1
在最小二乘回归中,预测值的平均值为,因此总方差等于观察值和预测值之间的平均平方差(残差)加上预测本身的样本方差(解释) (仅是 s 的函数)。因此,可以将“解释的”方差视为中的方差,该方差可归因于的方差。中方差的比例是“已解释”的(即,中的变化比例归因于 Xý我X我ÿ我ÿ我X我)有时称为。
现在我们用两个极端的例子来说明为什么这种方差分解很重要:
(1)预测变量与响应无关。在这种情况下,的最佳无偏预测变量(在最小二乘意义上)是。因此,的总方差刚好等于剩余方差,并且与预测变量的方差无关。ÿ我 = ¯ ÿ ÿ 我X我
(2)预测变量与预测变量完全线性相关。在这种情况下,预测完全正确,并且。因此,没有剩余方差,结果中的所有方差都是预测本身的方差,这仅是预测变量的函数。因此,结果中的所有方差仅是由于预测变量方差。
具有真实数据的情况通常会介于两个极端之间,而可归因于这两个来源的方差所占的比例也会如此。“解释方差”越多-即由于变化引起的的变化越多-预测的效果就越好(即, “剩余方差”),这是另一种说法,即最小二乘模型非常适合。
我无法与那些在我之前回答过的统计大人物竞争,也许我的想法很幼稚,但我是这样看的……
想象一下,您在汽车里,然后沿着道路行驶,左右转动车轮,疯狂踩油门踏板和刹车。然而,汽车行驶平稳,不受您的行为影响。您会立即怀疑自己不是在真正的汽车中,也许如果我们仔细观察,我们会确定您正在乘坐迪士尼世界。(如果您乘坐的是真正的汽车,那将有致命的危险,但是我们不要去那里。)
另一方面,如果您在汽车上行驶时,稍微向左或向右转动方向盘,则会立即导致汽车行驶,轻踩刹车会导致强烈的减速,而踩下油门踏板会使您回到行驶中座位。您可能会怀疑自己在一辆高性能跑车中。
通常,您可能会遇到这两种极端之间的情况。您的输入(转向,刹车,油门)直接影响汽车运动的程度为您提供了有关汽车质量的线索。也就是说,与您的动作相关的汽车运动变化越多,汽车就越好,并且汽车独立于控制而无法运动的越多,汽车就越糟。
PS我无法提出一个小熊维尼的比喻,但我尝试了。
PPS [编辑:]请注意,我正在解决这个特定问题。不要误认为如果您占方差的100%,您的模型将表现出色。您还需要考虑过度拟合的问题,因为您的模型非常灵活,以至于非常适合训练数据-包括其随机的怪癖和怪异现象。为了进行类比,您想要一辆具有良好转向和刹车性能的汽车,但又希望它在道路上行驶良好,而不仅仅是在您正在使用的测试赛道上行驶。