为什么是垂直距离?


11

为什么OLS估计涉及到点与直线的垂直偏差而不是水平距离?


1
这是个老问题,但我认为将数据视为由x参数化的概率分布的样本很有用
Bendy

Answers:


12

OLS(普通最小二乘)假定水平距离表示的值是由实验人员预先确定的,或者是高精度(相对于垂直距离)进行测量的。当水平距离存在不确定性问题时,您不应该使用OLS,而应该研究变量误差模型或可能的主成分分析


在寻找用于处理受污染的横坐标和纵坐标的方法时,可能会遇到“正交回归”。
JM不是统计学家

+1这仅是统计领域的利基市场;在实验物理学中,更复杂的最小二乘法(不仅增加了X变异性,而且还基于误差近似对点进行了不同的惩罚);ROOT框架有数十种。

1

有趣的问题。我的答案是,当我们拟合OLS模型时,我们隐式且主要是试图预测/解释当前的因变量-“ Y vs X”中的“ Y”。因此,我们主要关心的是就结果而言,将拟合线到实际观测值的距离最小化,这意味着将垂直距离最小化。当然,这定义了残差。

而且,最小二乘公式比大多数其他竞争方法更容易导出,这也许就是为什么它首先出现的原因。:P

正如上面的“ whuber”所暗示的那样,在拟合最佳拟合线时,还有其他方法将X和Y视为同等重点。我知道的一种这样的方法是“主曲线”或“主曲线”回归,它可以最大程度地减少点和线之间的正交距离(而不是垂直于误差线的垂直误差线与拟合线成90度) 。我在下面发布了一份参考资料供您阅读。它很长,但非常易于访问且很有启发性。

希望这会有所帮助,布伦登

  1. 特雷弗·哈斯蒂(Trevor Hastie)。斯坦福大学博士论文,主要曲线和曲面;1984年

1

它也可能与设计实验有关-如果x是实验设计的一部分,是受控量,则将其视为确定性;y是结果,并且是随机数。x可能是连续的量(例如某种药物的浓度),但可能是0/1分割(假设y为高斯,则导致2个样本t检验)。如果x是一个连续的量,可能会有一些测量误差,但是通常,如果它比y的可变性小得多,则将其忽略。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.