问题很简单:为什么当我们尝试将模型拟合到线性或非线性数据时,我们通常会尝试最小化误差平方和以获得模型参数的估计量吗?为什么不选择其他一些目标函数来最小化?我了解,由于技术原因,二次函数比其他函数(例如,绝对偏差之和)更好。但这仍然不是一个很令人信服的答案。除了这个技术原因之外,为什么人们特别赞成这种“欧几里得类型”的距离函数?是否有特定的含义或解释?
我的想法背后的逻辑如下:
当有了数据集时,首先要通过建立一组功能或分布假设(例如,某个时刻条件,而不是整个分布)来建立模型。在您的模型中,有一些参数(假设它是一个参数模型),那么您需要找到一种方法来一致地估计这些参数,并且希望您的估计器具有低方差和一些其他好的属性。无论您最小化SSE或LAD还是其他一些目标函数,我都认为它们只是获得一致估计量的不同方法。按照这种逻辑,我认为人们使用的最小二乘必须为1)它会产生模型的一致估计量2)其他我不知道的东西。
在计量经济学中,我们知道在线性回归模型中,如果您假设误差项对预测变量的均值条件为0,并且均方差和误差互不相关,那么最小化平方误差之和将为您提供模型的一致估计参数和高斯-马尔可夫定理,这个估计是蓝色。因此,这表明如果选择最小化不是SSE的某些其他目标函数,则无法保证将获得模型参数的一致估计量。我的理解正确吗?如果正确,那么可以通过一致性来证明最小化SSE而不是其他一些目标函数,这是可以接受的,实际上,这比说二次函数更好是可以接受的。
在实践中,我实际上看到许多情况,人们直接最小化平方误差之和,而没有先明确指定完整模型,例如误差项的分布假设(矩假设)。然后在我看来,该方法的用户只是想看看数据在平方距离函数方面与“模型”的拟合程度如何(我使用引号,因为模型假设可能不完整)。
一个相关的问题(也与该网站有关)是:为什么当我们尝试使用交叉验证比较不同的模型时,我们是否再次使用SSE作为判断标准?即,选择具有最小SSE的模型?为什么没有其他标准?