我刚刚开始进行一些机器学习,直到现在我一直在处理一个变量的线性回归。
我了解到有一个假设,即:
要了解好值的参数和θ 1,我们希望尽量减少计算结果和我们的测试数据的实际结果之间的差别。所以我们减去
从1到m的所有。因此,我们计算该差的总和,然后将总和乘以1来计算平均值。到现在为止还挺好。这将导致:
但这不是建议。相反,该课程建议采用差的平方值,然后乘以。因此公式为:
这是为什么?为什么在这里使用平方函数,为什么要乘以而不是1?
我刚刚开始进行一些机器学习,直到现在我一直在处理一个变量的线性回归。
我了解到有一个假设,即:
要了解好值的参数和θ 1,我们希望尽量减少计算结果和我们的测试数据的实际结果之间的差别。所以我们减去
从1到m的所有。因此,我们计算该差的总和,然后将总和乘以1来计算平均值。到现在为止还挺好。这将导致:
但这不是建议。相反,该课程建议采用差的平方值,然后乘以。因此公式为:
这是为什么?为什么在这里使用平方函数,为什么要乘以而不是1?
Answers:
你的损失函数是行不通的,因为它刺激行为设置到任何有限值和到。
我们称的残留为。
您的目标是使 尽可能接近零,而不仅仅是使它最小化。高负值与高正值一样糟糕。
编辑:您可以通过人为限制参数空间应对这种(例如,你想)。在这种情况下,最佳参数将位于参数空间边界上的某些点上。见https://math.stackexchange.com/q/896388/12467。这不是您想要的。
平方误差迫使和匹配。它的最小化,以便,如果可能的话,并且总是,因为它是实数的平方。
对于也可以实现上述目的,其中一些正整数。其中第一个实际使用(这就是所谓的流失;你也可能碰到的损失,这是误差平方的另一个名字)。
那么,为什么平方损失比这些更好呢?这是一个与频率论和贝叶斯推理之间的联系有关的深层问题。简而言之,平方误差与高斯噪声有关。
如果你的数据不适合所有点,即是一些点不为零,不管是什么您选择(如将始终在实践中发生的),这可能是因为噪音。在任何复杂的系统还会有很多小的独立你之间的差异会导致模型 和现实 :测量误差,环境因素等,由中心极限定理(CLT),总噪声将被分配通常根据,即高斯分布。我们想选择最合适的考虑到这种噪声分布。假设,部分您的模型不能解释,下面的高斯分布。我们使用大写字母是因为我们现在正在谈论随机变量。
高斯分布具有两个参数,平均值和方差。请参阅此处以更好地理解这些术语。
考虑,这是我们测量的系统误差。使用来校正系统误差,从而使(锻炼的阅读器)。这里没什么可做的。
表示随机误差,也称为噪声。一旦我们在前面的点照顾系统性噪声成分的如,当获得最佳预测的最小化。换句话说,最好的预测器是在预测值附近分布最紧密(最小方差)的预测器,即最小方差。最小化最小平方损失与最小化方差相同!这就解释了为什么最小平方损失适用于各种各样的问题。由于CLT,潜在的噪声通常是高斯噪声,因此将平方误差最小化是正确的选择!
为了同时考虑均值和方差,我们在分类器中包括一个偏差项(以处理系统误差),然后最小化平方损失。
后续问题:
最小二乘损失=高斯误差。其他所有损失函数是否也对应于某些噪声分布?是。例如,的损失(减少绝对值代替平方误差)对应于拉普拉斯分布(看看公式在信息框的PDF -它只是与高斯代替)。概率分布的普遍损失是KL散度。-由于中心极限定理,高斯分布受到很好的激励,我们之前已经讨论过。拉普拉斯分布何时才是正确的噪声模型?有一些情况,其中谈到关于自然,但它更常用的正则执行稀疏:在的损失是最小凸所有凸损失之一。
nan
或inf
。为了避免这种情况,只需标准化数据点的数量即可。损失函数中的误差度量是“统计距离”;与此形成鲜明对比的是,对欧几里得空间中两个向量之间的距离的普遍的初步了解。通过“统计距离”,我们试图将估计模型和最优模型之间的“不相似性”映射到欧几里得空间。
关于“统计距离”的表述没有严格的规定,但是如果选择合适,则在优化过程中逐渐减小该“距离”将转化为逐步改善的模型估计。因此,“统计距离”或误差度量的选择与基础数据分布有关。
实际上,对于不同类别的统计分布,有几种定义明确的距离/误差度量。建议根据现有数据的分布选择误差度量。碰巧的是,高斯分布无处不在,因此与之相关的距离测度L2范数是最受欢迎的误差测度。但是,这不是规则,存在现实世界中的数据,对于这些数据,“高效” *优化实现将采用与L2-范数不同的误差度量。
考虑布雷格曼散度的集合。该散度测度的标准表示是L2范数(平方误差)。它还包括相对熵(Kullback-Liebler散度),广义欧几里得距离(Mahalanobis度量)和Itakura-Saito函数。您可以在有关函数Bregman发散和贝叶斯分布估计的文章中了解更多信息。
总结:L2范数具有一组有趣的属性,这使其成为错误度量的常用选择(此处的其他答案已提及其中一些,足以解决此问题),并且平方误差将是适当的大多数时候选择。但是,当需要进行数据分发时,可以选择其他错误度量,并且选择很大程度上取决于优化例程的制定。
*“适当的”误差度量将使损失函数凸出优化,这非常有用,这与损失函数不具凸性且因此非常困难的其他误差度量相反。