均方误差和残差平方和


31

看一下Wikipedia的定义:

在我看来

MSE=1NRSS=1N(fiyi)2

其中是样本数,是我们对的估计。Nfiyi

但是,没有维基百科文章提到这种关系。为什么?我想念什么吗?


6
我知道这似乎无济于事,并且充满敌意,但他们没有提及,因为这很明显。另外,您想在这里稍加小心。通常,当您在实际经验工作中遇到MSE时,它不是除以而是除以,其中是某些回归模型中右侧变量的数量(包括截距)。RSSNRSSNKK
条例草案

10
@Bill:好吧,正是这种关系通常导致文章在Wikipedia上链接。您关于自由度的观点还表明,这一点并不那么明显,绝对值得一提。
bluenote10,2015年

2
@比尔:同意,但是显而易见是非常主观的。统计资料/机器学习的灰色区域充满了地狱符号,因此最好明确。
rnoodle

Answers:


30

实际上,在Wikipedia 中均方误差的回归部分中已提到:

在回归分析中,术语均方误差有时用于表示误差方差的无偏估计:残差平方和除以自由度数。

您还可以在此处找到一些信息:统计中的误差和残差 它表示均方误差的表达在不同情况下可能具有不同的含义,有时这很棘手。


4

但是请注意,有时可以互换使用平方和(SSE)和残差平方(RSS),从而使读者感到困惑。例如,请检查以下网址:https//365datascience.com/sum-squares/以获取有关线性回归的更多信息。

从统计的角度严格来说,错误和残差是完全不同的概念。误差主要是指实际观察到的样本值与预测值之间的差异,并且主要用于统计度量中,例如均方根误差(RMSE)和绝对绝对误差(MAE)。相反,残差仅指因变量与线性回归估计之间的差异。


0

如果我们认为MSE是RMSE的基石,我认为这不是正确的。例如,您有一系列关于预测和观察值的采样数据,现在尝试进行线性递归:观察(O)= a + b X预测(P)。在这种情况下,MSE是O和P之间的平方差之和,再除以样本大小N。

但是,如果要测量线性回归的执行方式,则需要计算均方差(MSR)。在相同情况下,首先要计算残差平方和(RSS),该残差平方和对应于实际观测值与线性回归得出的预测观测值之间的平方差之和,然后是RSS除以N-2到获得MSR。

简而言之,在该示例中,无法使用RSS / N估算MSE,因为RSS组件与用于计算MSE的组件不再相同。


1
我不明白这个答案。
Michael R. Chernick

看起来,基于所提到的采样预测值和观测数据值的示例,建立了线性回归:观测值(O)= a + b X预测值(P)(a,b分别是截距和斜率)。在这种情况下,MSE =Σ(OP)^ 2 / n,其中Σ(OP)^ 2是平方误差(SSE)的总和,n是样本大小。但是,均方差(MSR)=Σ(OO´)^ 2 / n-2,其中Σ(OO´)^ 2等于残差平方和(RSS),并且O'= a + b XP。 RSS主要用于测试线性回归的整体意义。另请注意,SSE =系统错误(SE)+ RSS,其中SE =Σ(PO´)^ 2
Dr.CYY
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.