为什么我们假设错误是正态分布的?


17

我想知道为什么在对误差建模时使用高斯假设。在斯坦福大学的ML课程中,Ng教授基本上以两种方式对其进行描述:

  1. 在数学上很方便。(与最小二乘拟合有关,易于通过伪逆求解)
  2. 由于中心极限定理,我们可以假设存在许多影响过程的潜在事实,并且这些单个错误的总和往往表现为零均值正态分布。实际上,情况似乎是这样。

我实际上对第二部分感兴趣。据我所知,中心极限定理适用于iid样本,但我们不能保证基础样本为iid。

您对误差的高斯假设有任何想法吗?


你在说什么环境 分类,回归还是更通用?
tdc 2012年

我问了一般情况下的问题。大多数故事都是从高斯误差假设开始的。但是,就我个人而言,我自己的兴趣是矩阵分解和线性模型解(可以说是回归)。
petrichor'2

Answers:


9

我认为您基本上已经在问题上打了个头,但是我会看看是否仍然可以添加一些内容。我将以一种about回的方式来回答这个问题...

稳健统计领域研究了当高斯假设失败时(在存在异常值的情况下)该怎么做的问题:

通常假定数据误差至少近似正态分布,或者可以依靠中心极限定理来产生正态分布估计。不幸的是,当数据中存在异常值时,经典方法的性能通常很差

这些也已在ML中应用,例如Mika等人。(2001)Kernel Fisher算法的数学编程方法,他们描述了如何将Huber的稳健损耗与KDFA一起使用(以及其他损耗函数)。当然,这是分类损失,但是KFDA与关联向量机密切相关(请参见Mika论文的第4节)。

正如问题所暗示的,损失函数与贝叶斯误差模型之间存在紧密联系(请参见此处的讨论)。

但是,通常情况是,一旦您开始合并“笨重的”损失函数,优化就会变得困难(请注意,这也发生在贝叶斯世界中)。因此,在许多情况下,人们诉诸于易于优化的标准损失函数,而是进行额外的预处理以确保数据符合模型。

您提到的另一点是CLT仅适用于IID样本。的确如此,但是大多数算法的假设(以及伴随的分析)是相同的。当您开始查看非IID数据时,事情变得更加棘手。一个示例是是否存在时间依赖性,在这种情况下,通常的方法是假设依赖性仅跨越某个窗口,因此可以在该窗口之外将样本视为近似IID(例如,参见这张出色但坚韧的论文Chromatic PAC非IID数据的Bayes界:应用于排名和平稳β混合过程),之后可以应用正态分析。

因此,是的,这部分归因于便利性,部分原因是在现实世界中,大多数错误的确看起来(大致)是高斯的。在查看新问题时,当然应该始终小心,以确保不违反这些假设。


1
+1非常感谢您特别提到稳健和不稳健的统计信息。我确实观察到中值和alpha修剪的均值方法通常比实际值更好,但我不知道其背后的理论。
petrichor'2

3
与正态分布的数据关联的另一个便利项是0相关性表示独立性。
AdamO '02

3
关于IID-ness的评论不太正确。当结果独立但分布不相同时,有(几个)非常普遍的中心极限定理适用。参见例如Lindeberg CLT。也有CLT结果甚至不需要独立性。例如,它们可能来自可交换的观察。
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.