如何解释均方根误差(RMSE)与标准偏差之间的关系?


21

假设我有一个模型,可以为我提供预测值。我计算这些值的RMSE。然后是实际值的标准偏差。

比较这两个值(方差)是否有意义?我的想法是,如果RMSE和标准偏差相似/相同,那么我模型的误差/方差与实际发生的情况相同。但是,如果比较这些值甚至没有意义,那么这个结论可能是错误的。如果我的想法是正确的,那么这是否意味着该模型就足够好了,因为它不能归因于造成差异的原因是什么?我认为最后一部分可能是错误的,或者至少需要更多信息来回答。

Answers:


22

假设我们的响应是而我们的预测值是。Ÿ 1... ÿ ñy1,,yny^1,,y^n

样本方差(为简单起见,使用而不是)为而MSE为。因此,样本方差给出了响应均值在平均值附近变化多少,而MSE提供了响应均围绕我们的预测变化了多少。如果我们认为总体均值是我们曾经考虑过的最简单的预测指标,那么通过将MSE与响应的样本方差进行比较,我们可以看到我们用模型解释了多少变化。这正是值在线性回归中的作用。n - 1 1nn111ni=1n(yiy¯)2 ˉ ÿ - [R21ni=1n(yiy^i)2y¯R2

考虑下图:的样本方差是围绕水平线的方差。如果我们将所有数据投影到轴上,就可以看到这一点。MSE是到回归线的均方距离,即回归线周围的变异性(即)。因此,由样本方差衡量的变异性是到水平线的平均平方距离,我们可以看到,该距离远大于到回归线的平均平方距离。 ÿ ÿyiÿÿ^一世在此处输入图片说明


5

如果您正在谈论预测的均方误差,则可以是: 具体取决于估计的参数数(p)用于预测,即失去自由度(DF)。

一世ÿ一世-ÿ^一世2ñ-p

样本方差可以是: 其中仅是均值的估计量。

一世ÿ一世-ÿ¯2ñ-1个
ÿ¯ÿ一世

因此,您可以将后一个公式(样本方差)视为前一个(MSE)的特殊情况,其中并且由于平均计算,DF的损失为1是一个估计。ÿ^一世=ÿ¯ÿ¯

或者,如果您不太在意的预测方式,但希望在模型上获得标准的MSE,则仍可以使用以下公式对其进行估算: ÿ^一世

一世ÿ一世-ÿ^一世2ñ

这是最容易计算的。


我没有特权评论@Chaconne的答案,但我怀疑他的最后一句话是否有错字,他说:“因此,由样本方差衡量的方差是与水平线的平均平方距离,我们可以请参阅“明显小于到该线的平均平方距离”。但是在他的答案图中,用该线对y值的预测非常准确,这意味着MSE很小,至少比带有平均值的“预测”要好得多。
萧锋锂

3

在缺少更好信息的情况下,无论是在对现有数据建模还是在预测未来值时,都可以将目标变量的平均值视为目标变量值的简单估计。目标变量的这种简单估计(即,预测值均等于目标变量的平均值)将因一定的误差而偏离。测量平均误差的标准方法是标准偏差(SD) ,,由于SD如果目标变量是正态分布,则具有拟合钟形(高斯)分布的良好特性。因此,可以将SD视为目标变量的估计中自然发生的错误量。1个ñ一世=1个ñÿ一世-ÿ¯2这使其成为任何模型都想超越的基准。

1个ñ一世=1个ñÿ一世-ÿ^一世2

该论点适用于其他误差度量,不仅适用于RMSE,而且RMSE对于直接与SD进行比较特别有吸引力,因为它们的数学公式相似。


这是最佳答案,因为它说明了比较可能有用的意义,而不仅仅是描述差异。
汉斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.