对均方根误差和均值偏差的概念理解


13

我想对“均方根误差(RMSE)”和“均值偏差(MBD)”有一个概念上的理解。在为我自己的数据比较计算了这些度量之后,我常常感到困惑,发现RMSE高(例如100千克),而MBD低(例如小于1%)。

更具体地说,我正在寻找参考(而非在线参考),其中列出并讨论了这些度量的数学原理。计算这两种度量的通常可接受的方法是什么,我应该如何在期刊论文中报告它们?

在这篇文章的背景下,拥有一个“玩具”数据集可以用来描述这两种量度的计算是非常有帮助的。

例如,假设我要查找装配线生产的200个小部件的质量(以千克为单位)。我也有一个数学模型,它将尝试预测这些小部件的质量。该模型不必是经验模型,也可以基于物理模型。我在实际测量值和模型之间计算了RMSE和MBD,发现RMSE为100千克,MBD为1%。这在概念上意味着什么,我将如何解释这一结果?

现在假设我从该实验的结果中发现,RMSE为10千克,MBD为80%。这是什么意思,关于这个实验我能说些什么?

这些措施的含义是什么,两者(合起来)意味着什么?与RMSE一起考虑时,MBD还提供哪些其他信息?


2
您是否浏览过我们的网站,尼古拉斯?考虑从stats.stackexchange.com/a/17545开始,然后探索我添加到您的问题中的一些标签。
ub

@whuber:谢谢wh!我环顾了整个站点,但是对我来说,要了解我的研究的真正含义仍然有些挑战。
尼古拉斯·基纳尔

Answers:


21

我认为这些概念很容易解释。所以我宁愿在这里描述它。我敢肯定,许多基础统计学书籍都涵盖了这方面的内容,包括我的《医师,护士和临床医师生物统计学要点》一书。

考虑一个靶心在中间的目标。均方误差代表距目标和中心射箭的平均距离。现在,如果您的箭头均匀地散布在中心周围,则说明射手没有瞄准偏差,并且均方误差与方差相同。

但一般而言,箭头会散布在远离目标的点附近。箭头与箭头中心的平均平方距离是方差。这个中心可以看作是射手的瞄准点。从射手中心或瞄准点到目标中心的距离是偏差的绝对值。

考虑一个直角三角形,其中斜边的平方是两侧的平方和。因此,箭头到目标的距离的平方就是箭头到目标点的距离的平方,以及目标中心和目标点之间的距离的平方。对所有这些平方距离求平均值可得出均方误差,即偏差平方和方差之和。


谢谢; 非常感谢。我仍然很难理解RMSE和MBD之间的区别。据我了解,RMSE量化了模型与实验数据的接近程度,但是MBD的作用是什么?也许我的误解与术语有关。
尼古拉斯·基纳尔

1
所谓的平均偏差偏差就是我所描述的偏差项。它测量目标距目标多远。偏差会导致射击不准确。
Michael R. Chernick

再次感谢迈克尔。因此,RMSE高而MBD低意味着它是一个好模型吗?
尼古拉斯·基纳尔

没有一个较高的RMSE和较低的MBD只是说该模型较差,因为存在较大的差异而不是较大的偏差。RMSE是决定模型好坏的数字。
Michael R. Chernick

1
@bbadyalina:它们是独立的信息,就像上/下和左/右是独立的一样。您的问题就像问“一个点是否垂直居中,并且偏向左侧,是否在中间?” ,或“如果某个点高高,但水平居中,是在中间吗?”
naught101 '18

1

RMSE是一种衡量我们的预测模型对实际数据的良好程度的方法,RMSE越小,模型表现就越好,也就是说,如果我们在新的数据集(而不是训练集)上进行了测试,然后又在0到1的范围内,RMSE为0.37,与更好的模型具有0.01的RMSE相比,造成了很多错误。BIAS用于​​高估或低估。


您能否提供更多详细信息和可行的示例?OP正在针对他的估计问题寻求关于100的RMSE含义的直观解释。
西安

这似乎并没有带来太多的直觉。你能解释更多吗?
Glen_b-恢复莫妮卡2015年

0

据我所知,RMSE给出了模型与观测值之间误差的更准确值,但是BIAS除了给出误差值(不如RMSE精度)外,还可以确定模型是否为如果模型是低估或高估了观测值,则为正偏差或负偏差。


不能。您可以将RMSE视为模型的“精度”,例如模型预测误差中存在多少价差(请注意:精度是方差的倒数-高方差=低精度)。您可以将偏差视为模型中的系统误差-例如,所有误差的平均值。作品“准确性”是两者的模糊结合,因此引起很多混乱。
naught101 '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.