您的示例仅在模型中应包含变量。当人们使用通常的最小二乘估计时,它当然不适用。看到这一点,请注意,如果我们估算在你的榜样最小二乘法,我们得到:X a
a^=1N∑Ni=1XiYi1N∑Ni=1X2i=1N∑Ni=1XiYis2X+X¯¯¯¯2
其中是的(样品)方差和是的(样本)平均值
s2X=1N∑Ni=1(Xi−X¯¯¯¯)2XX¯¯¯¯=1N∑Ni=1XiX
a^2Var[X]=a^2s2X=(1N∑Ni=1XiYi)2s2X⎛⎝s2Xs2X+X¯¯¯¯2⎞⎠2
现在,第二项始终小于(极限等于),因此我们从变量获得对的贡献的上限:11R2X
a^2Var[X]≤(1N∑Ni=1XiYi)2s2X
因此,除非,否则我们实际上会看到就像(因为分子变为零,但分母变为))。另外,取决于两个项的发散速度,我们可能使收敛到到之间的某个。现在上述术语通常发散的速度比如果应在模型中,并且如果速度较慢不应是在模型中。在两种情况下,都朝着正确的方向发展。(1N∑Ni=1XiYi)2→∞R2→0s2X→∞Var[ϵ]>0R201s2XXXR2
还要注意,对于任何有限数据集(即实数集),除非所有误差都完全为零,否则我们永远不可能有。这基本上表明是相对的度量,而不是绝对的度量。因为除非实际上等于,否则我们总能找到一个更好的拟合模型。这可能是的“危险”方面,因为它被缩放为介于和之间,看来我们可以在绝对意义上进行交织。R2=1R2R21R201
查看将变量添加到模型中时下降的速度可能更有用。最后,但并非最不重要的一点是,在变量选择中绝对不能忽略它,因为实际上是变量选择的足够统计量-它包含数据中有关变量选择的所有信息。唯一需要做的就是选择的下降量,该下降量与“拟合误差”相对应-通常取决于样本大小和变量数量。R2R2R2