我已经看到“残差”被不同定义为“预测的减去实际值”或“实际的减去预测值”。为了说明目的,为了显示两个公式都被广泛使用,请比较以下Web搜索:
在实践中,几乎没有任何区别,因为单个残差的符号通常并不重要(例如,平方或取绝对值)。但是,我的问题是:这两个版本之一(预测优先与实际优先)是否被视为“标准”?我希望在使用中保持一致,因此,如果有完善的常规标准,我希望遵循它。但是,如果没有标准,我很乐意接受这作为答案,只要可以令人信服地证明没有标准约定。
我已经看到“残差”被不同定义为“预测的减去实际值”或“实际的减去预测值”。为了说明目的,为了显示两个公式都被广泛使用,请比较以下Web搜索:
在实践中,几乎没有任何区别,因为单个残差的符号通常并不重要(例如,平方或取绝对值)。但是,我的问题是:这两个版本之一(预测优先与实际优先)是否被视为“标准”?我希望在使用中保持一致,因此,如果有完善的常规标准,我希望遵循它。但是,如果没有标准,我很乐意接受这作为答案,只要可以令人信服地证明没有标准约定。
Answers:
残差始终为实际值减去预测值。的模型是: 因此,残差ε,这是误差的估计ε: ε = ÿ - ÿ
我同意@whuber所说的符号在数学上并不重要。虽然有一个约定是很好的。目前的惯例与我的回答相同。
由于OP在这方面挑战了我的权威,因此我添加了一些参考资料:
我只是碰上了一个令人信服的理由对一个答案是在正确的。
蓝色曲线是普通的最小二乘拟合。它绘制拟合值。
这是一个标准的诊断图,显示了偏移的条件分布如何随预测值变化。从几何上讲,它几乎与“直到”散布上一个散点图相同。
它显示的数量与之前的图相同,但是通过从拟合中减去数据来计算残差-这与否定先前的残差相同。
尽管前面的两个图在数学上都是等效的-仅通过在蓝色地平线上翻转这些点就可以将它们转换成另一个-但其中一个与原始图具有更直接的视觉关系。
因此,如果我们的目标是将残差的分布特性与原始数据的特性相关联(而且几乎总是这样),那么最好是简单地移动响应而不是移动和反转它们。
Green&Tashman(2008,Foresight)的一份关于类似预测误差问题的小型调查报告。我将总结它们所报告的任一约定的参数:
“实际预测的”参数
“预测的实际”参数
相关地,如果将正偏差定义为正预期误差,则意味着按照该惯例,预测平均而言过高。
这几乎是为此公约提供的唯一论据。再者,鉴于其他约定可能导致的误解(正错误=预测过低),这是一个很强的约定。
最后,我认为这取决于您需要向谁传达残差。鉴于此讨论肯定有两个方面,因此明确指出您遵循的约定是有意义的。
@Aksakal的答案是完全正确的,但是我只添加一个我认为可以帮助我(和我的学生)的其他元素。
座右铭:统计数字是“完美的”。在这种情况下,我总是可以提供完美的预测(我知道现在有些眉毛在抬头……所以听听我的声音)。
我将使用最小二乘线性回归的特殊情况。如果我们把我们的模型为则作为@Aksakal指出我们很自然地结束了等等。如果取而代之,我们当然可以自由地使用作为我们的模型,那么我们得到。在这一点上,除了模糊的偏爱比之外,实际上没有理由比另一个更喜欢一个。
但是,如果那么我们将通过获得残差,其中是一个投影到与设计矩阵的列空间正交的空间中的幂等矩阵。如果我们改用那么最终得到。但是本身不是幂等的。因此,实际上是投影矩阵的负值,即。因此,我认为这是消除使用引入的负数,因此,为了简化起见,最好只使用P X - 我本人- P X Ŷ = X β - ε ÿ = X β + ε ÿ - ÿ这又给我们作为残差。
正如在其他地方所提到的,如果使用并不会导致任何中断,但是最终会遇到这种双重否定的情况,我认为这就是使用充分理由。ÿ - ÿ