假设我们有输入(预测)数据和输出(响应)数据点A,B,C,D,E,并且我们希望通过这些点拟合一条线。这是一个简单的问题,可以说明问题,但也可以扩展到更高的维度。
问题陈述
当前最佳拟合或假设由上面的黑线表示。蓝色箭头()表示数据点与当前最佳拟合之间的垂直距离,方法是从该点绘制一条垂直线直至与该线相交。
绘制绿色箭头(),使其在相交点处垂直于当前假设,因此代表数据点与当前假设之间的最小距离。对于点A和点B,绘制一条垂直于当前最佳猜测的线,并且该线类似于垂直于x轴的线。对于这两点,蓝线和绿线重叠,但对于C,D和E点则不重叠。
最小二乘原理通过在任何给定的训练周期中通过一条数据线(A,B,C,D或E)绘制一条垂直线到估计的假设()来定义线性回归的成本函数,并由表示
这里代表数据点,代表最佳拟合。
点(A,B,C,D或E)之间的最小距离由从该点到当前最佳猜测的垂直线(绿色箭头)表示。
最小二乘函数的目的是定义一个目标函数,当最小化该函数时,将使假设与所有组合点之间的距离最小,但不一定会使假设与单个输入点之间的距离最小。
**题**
我们为什么不将线性回归的成本函数定义为输入数据点与通过输入数据点的假设(由垂直于假设的直线定义)之间的最小距离,如()?