标题说明了一切。我知道,如果模型的误差呈正态分布,则最小二乘和最大似然将为回归系数提供相同的结果。但是,如果错误不是正态分布的,会发生什么?为什么这两种方法不再等效?
标题说明了一切。我知道,如果模型的误差呈正态分布,则最小二乘和最大似然将为回归系数提供相同的结果。但是,如果错误不是正态分布的,会发生什么?为什么这两种方法不再等效?
Answers:
多元高斯分布变量的概率密度与均值与欧几里德的平方有关均值和变量之间的距离(),即平方和。
如果将多个高斯分布乘以误差(假设均等偏差),那么将得到平方和。
或以方便的对数形式:
因此,优化以最小化平方和等于最大化(log)可能性(即,多个高斯分布或多元高斯分布的乘积)。
它是指数结构内部的差异嵌套平方,,而其他分布则没有。
例如,与泊松分布的情况进行比较
当最小化以下各项时,它具有最大值:
这是另一种野兽。
正态分布的历史(忽略deMoivre成为二项式分布的近似值)实际上是因为发现使得MLE对应于最小二乘法(而不是最小二乘法)可以表示正态分布的MLE,首先是最小二乘法,其次是高斯分布)
请注意,高斯将“最大似然法”与“最小二乘法”联系在一起,提出了“高斯分布”,这是导致我们得出的唯一误差分布。在这两种方法之间建立联系。
摘自查尔斯·亨利·戴维斯(Charles Henry Davis)的译本(圆锥形截面中围绕太阳运动的天体运动的理论。高斯的“ Theoria motus”的翻译,带有附录)...
高斯定义:
因此,概率被分配到每个错误将由的函数来表示我们应由表示。
(由我完成的翻译)
并继续(在第177页258节中):
...据此很容易推断必须是一个常数。我们将用表示。因此,我们有用表示双曲对数的底,并假设
最终(归一化并实现)在
一个具体的例子:假设我们采用一个简单的误差函数p(1)=。9,p(-9)= .10。如果我们得到两点,那么LS就是要通过它们。另一方面,ML将假设两个点都太高一个单位,因此将使线穿过单位向下移动的点。