Answers:
假设我们的响应是而我们的预测值是。Ÿ 1,... ,ÿ ñ
样本方差(为简单起见,使用而不是)为而MSE为。因此,样本方差给出了响应均值在平均值附近变化多少,而MSE提供了响应均围绕我们的预测变化了多少。如果我们认为总体均值是我们曾经考虑过的最简单的预测指标,那么通过将MSE与响应的样本方差进行比较,我们可以看到我们用模型解释了多少变化。这正是值在线性回归中的作用。n - 1 11 ˉ ÿ - [R2
考虑下图:的样本方差是围绕水平线的方差。如果我们将所有数据投影到轴上,就可以看到这一点。MSE是到回归线的均方距离,即回归线周围的变异性(即)。因此,由样本方差衡量的变异性是到水平线的平均平方距离,我们可以看到,该距离远大于到回归线的平均平方距离。 ÿ ÿ我
如果您正在谈论预测的均方误差,则可以是: 具体取决于估计的参数数(p)用于预测,即失去自由度(DF)。
样本方差可以是: 其中仅是均值的估计量。
因此,您可以将后一个公式(样本方差)视为前一个(MSE)的特殊情况,其中并且由于平均计算,DF的损失为1是一个估计。
或者,如果您不太在意的预测方式,但希望在模型上获得标准的MSE,则仍可以使用以下公式对其进行估算:
这是最容易计算的。
在缺少更好信息的情况下,无论是在对现有数据建模还是在预测未来值时,都可以将目标变量的平均值视为目标变量值的简单估计。目标变量的这种简单估计(即,预测值均等于目标变量的平均值)将因一定的误差而偏离。测量平均误差的标准方法是标准偏差(SD) ,,由于SD如果目标变量是正态分布,则具有拟合钟形(高斯)分布的良好特性。因此,可以将SD视为目标变量的估计中自然发生的错误量。这使其成为任何模型都想超越的基准。
该论点适用于其他误差度量,不仅适用于RMSE,而且RMSE对于直接与SD进行比较特别有吸引力,因为它们的数学公式相似。