为什么线性回归基于假设和输入数据点之间的垂直距离使用成本函数?


14

假设我们有输入(预测)数据和输出(响应)数据点A,B,C,D,E,并且我们希望通过这些点拟合一条线。这是一个简单的问题,可以说明问题,但也可以扩展到更高的维度。

问题陈述

在此处输入图片说明

当前最佳拟合或假设由上面的黑线表示。蓝色箭头()表示数据点与当前最佳拟合之间的垂直距离,方法是从该点绘制一条垂直线直至与该线相交。

绘制绿色箭头(),使其在相交点处垂直于当前假设,因此代表数据点与当前假设之间的最小距离。对于点A和点B,绘制一条垂直于当前最佳猜测的线,并且该线类似于垂直于x轴的线。对于这两点,蓝线和绿线重叠,但对于C,D和E点则不重叠。

最小二乘原理通过在任何给定的训练周期中通过一条数据线(A,B,C,D或E)绘制一条垂直线到估计的假设()来定义线性回归的成本函数,并由表示

CostFunction=i=1N(yihθ(xi))2

这里代表数据点,代表最佳拟合。(xi,yihθ(xi)

点(A,B,C,D或E)之间的最小距离由从该点到当前最佳猜测的垂直线(绿色箭头)表示。

最小二乘函数的目的是定义一个目标函数,当最小化该函数时,将使假设与所有组合点之间的距离最小,但不一定会使假设与单个输入点之间的距离最小。

**题**

我们为什么不将线性回归的成本函数定义为输入数据点与通过输入数据点的假设(由垂直于假设的直线定义)之间的最小距离,如()?


5
简单的线性回归假定观测值的x坐标值没有错误(例如,因为它们是实验操作)。如果x轴上存在误差,则可以通过最小化与您建议的成本函数相似的成本函数来解决这些误差。这需要设置x和y轴上的误差方差之间的比率。如果比率,则等于最小化点和线之间的垂直距离(正交回归)。如果该比率它被称为推定回归=11
利玛

Answers:


13

当因变量(垂直误差)和自变量(水平误差)中都包含噪声时,可以修改最小二乘目标函数以合并这些水平误差。如何加权这两种类型的错误的问题。该加权通常取决于两个误差的方差之比:

  1. 如果垂直误差的方差相对于水平误差的方差极大,则OLS是正确的。
  2. 如果水平误差的方差是相对非常大至垂直误差的方差,逆最小二乘(其中是退步和系数估计的倒数为被用作估计)是合适。xyyβ
  3. 如果垂直误差的方差与水平误差的方差之比等于因变量和自变量的方差之比,则我们有“对角线”回归的情况,其中一致的估计结果为是OLS和最小二乘反方估计的几何平均值。
  4. 如果这些误差方差的比率为1,则为“正交”回归的情况,其中沿垂直于估算线的线测得的平方误差总和最小。这就是您的想法。

在实践中,此过程的最大缺点是误差方差的比率通常是未知的,并且通常无法估算,因此前进的道路尚不清楚。


我试图编辑以将第一句中的“独立”更改为“独立”,但编辑必须为6个字符。也许更新答案来解决错字?
瑞安·斯托特

@RyanStout谢谢,完成了。我认为插入空格可以解决您的问题。
Dimitriy V. Masterov

现在我有点困惑:垂直误差不是因变量(y)中的误差,还是独立变量(x)中的水平误差?
瑞安·斯托特

@RyanStout我又搞砸了
Dimitriy V. Masterov

9

一个原因是,是比较容易计算和优化,而所提出的成本Ñ Σ= 1分钟X ÿ [ÿ - ħ θx 2 + x ix 2 ]

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
具有可以是相当硬取决于家庭的选择对于嵌套最小化问题hθ(x)

那是个很好的观点。我一直在思考如何总体上计算成本函数。
alpha_989

我不一定不确定如何评估点与非线性平面/曲面之间的距离,但是要评估点与线性平面/平面之间的距离,我们可能不需要嵌套的最小化:mathinsight.org/distance_point_plane
alpha_989

其次,当我们使用回归时,我们的目标是评估权重以找到最佳拟合。据我了解,在实际计算过程中,我们很少评估成本函数,而是成本函数的某些导数?
alpha_989

1
@whuber。我知道了。一旦我们确定了这两个术语的含义,我同意要解决的问题是不同的(x中是否存在错误)。我认为您不会从知识渊博的人那里获得关于这些术语含义的广泛认可,但这是一个附带的观点。
随机

1
@Stochastic我同意“曲线拟合”的概念可能有些模糊,但是我所引用的回归的概念出现在最佳机构的著作中。
whuber

2

过于简化的版本是假定X没有错误。因此,例如,如果您查看图中的点E,则假定其X坐标是精确准确的。通常,可以控制X时就是这种情况,换句话说,可以将其设置为特定值。在这种情况下,唯一可能存在的误差是Y方向,这就是为什么误差/成本函数仅包括Y方向的原因。

每当不是这种情况时,只要我们不控制X且X都会出错,人们就会将X方向合并到称为II型或II型回归及其变体的误差函数中。如果X和Y具有不同的比例,则这样做很棘手,因此您必须考虑归一化等。


1

容易出错的原因是,误差函数的原因是标准解释是给出了x,并且人们正试图最好地描述(或预测)y分量。因此,“ x”中没有错误。例如,您可能会根据今天的收盘价尝试了解(或预测)明天的股票收盘价。同样,可以尝试用今天的平均温度来了解明天的平均温度。显然,这些示例思路简单,但这就是想法。顺便说一句,大多数人没有意识到,但是我认为从您的示例中可以清楚地看出,如果一个y相对于x回归,则回归线不必与x相对于y的回归有任何特定的相似之处。正交回归是一种回归的术语,在其中人们试图找到使点与线之间的距离最小的线。例如,如果试图了解IBM股票价格与AAPL股票价格之间的关系,那将是一种适当的方法。


1

没错,当通过点拟合线时,正交距离是可以应用于任意线的最自然的损失函数(请注意,y距离对于垂直于x轴的线毫无意义)。以许多名称(例如“正交回归”或“(最常用的术语是AFAIK)”“主成分分析”(PCA)知道此问题。有关在任意维度上讨论此问题的信息,请参见

Späth:“带有线性流形的正交最小二乘法。” Numerische Mathematik 48,第441–445页,1986年

正如@aginensky已经指出的那样,线性回归背后的思想不是使直线穿过点,而是针对给定的x值预测 y值。这就是为什么仅使用y的距离(即预测精度)的原因。

x(t)pii=1Nt

Wang,Pottmann,Liu:“通过基于曲率的平方距离最小化,将B样条曲线拟合为点云。” ACM Transactions on Graphics 25.2,第214-238页,2006年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.