我想知道为什么在对误差建模时使用高斯假设。在斯坦福大学的ML课程中,Ng教授基本上以两种方式对其进行描述:
- 在数学上很方便。(与最小二乘拟合有关,易于通过伪逆求解)
- 由于中心极限定理,我们可以假设存在许多影响过程的潜在事实,并且这些单个错误的总和往往表现为零均值正态分布。实际上,情况似乎是这样。
我实际上对第二部分感兴趣。据我所知,中心极限定理适用于iid样本,但我们不能保证基础样本为iid。
您对误差的高斯假设有任何想法吗?
我想知道为什么在对误差建模时使用高斯假设。在斯坦福大学的ML课程中,Ng教授基本上以两种方式对其进行描述:
我实际上对第二部分感兴趣。据我所知,中心极限定理适用于iid样本,但我们不能保证基础样本为iid。
您对误差的高斯假设有任何想法吗?
Answers:
我认为您基本上已经在问题上打了个头,但是我会看看是否仍然可以添加一些内容。我将以一种about回的方式来回答这个问题...
稳健统计领域研究了当高斯假设失败时(在存在异常值的情况下)该怎么做的问题:
通常假定数据误差至少近似正态分布,或者可以依靠中心极限定理来产生正态分布估计。不幸的是,当数据中存在异常值时,经典方法的性能通常很差
这些也已在ML中应用,例如Mika等人。(2001)Kernel Fisher算法的数学编程方法,他们描述了如何将Huber的稳健损耗与KDFA一起使用(以及其他损耗函数)。当然,这是分类损失,但是KFDA与关联向量机密切相关(请参见Mika论文的第4节)。
正如问题所暗示的,损失函数与贝叶斯误差模型之间存在紧密联系(请参见此处的讨论)。
但是,通常情况是,一旦您开始合并“笨重的”损失函数,优化就会变得困难(请注意,这也发生在贝叶斯世界中)。因此,在许多情况下,人们诉诸于易于优化的标准损失函数,而是进行额外的预处理以确保数据符合模型。
您提到的另一点是CLT仅适用于IID样本。的确如此,但是大多数算法的假设(以及伴随的分析)是相同的。当您开始查看非IID数据时,事情变得更加棘手。一个示例是是否存在时间依赖性,在这种情况下,通常的方法是假设依赖性仅跨越某个窗口,因此可以在该窗口之外将样本视为近似IID(例如,参见这张出色但坚韧的论文Chromatic PAC非IID数据的Bayes界:应用于排名和平稳β混合过程),之后可以应用正态分析。
因此,是的,这部分归因于便利性,部分原因是在现实世界中,大多数错误的确看起来(大致)是高斯的。在查看新问题时,当然应该始终小心,以确保不违反这些假设。