贝叶斯vs MLE,过度拟合问题


12

他在Bishop的PRML书中说,过度拟合是最大似然估计(MLE)的问题,贝叶斯可以避免这种情况。

但是我认为,过度拟合问题更多地与模型选择有关,而不是与用于参数估计的方法有关。也就是说,假设我有一个数据集,它是通过,现在我可以选择不同的模型来拟合数据并找出哪一个是最好的。所考虑的模型是具有不同阶数的多项式,是阶数1,是阶数2,是阶数9。D

f(x)=sin(x),x[0,1]
HiH1H2H3

现在,我尝试以适应数据与各3款,每个模型都有其paramters,表示为的。DwiHi

使用ML,我将获得模型参数的点估计,并且太简单了,总是会拟合数据,而太复杂了,会拟合数据,只有会很好地拟合数据。wH1H3H2

我的问题是

1)模型将使数据过拟合,但我认为这不是ML的问题,而是模型本身的问题。因为将ML用于不会导致过拟合。我对吗?H3H1,H2

2)与贝叶斯算法相比,机器学习确实有一些缺点,因为它仅给出模型参数的点估计,并且过于自信。贝叶斯不仅仅依赖于参数的最可能值,而且还依赖于给定观测数据所有可能参数值,对吗?wD

3)为什么贝叶斯可以避免或减少过度拟合?据我了解,我们可以使用贝叶斯模型进行模型比较,也就是说,给定数据,我们可以找出所考虑的每种模型的边际可能性(或模型证据),然后选择边际可能性最高的模型(对) ?如果是这样,那为什么呢?D

Answers:


19

优化是统计中万恶之源。每当您通过优化对有限数据样本评估的一些合适准则来对模型做出选择时,都会冒着过度拟合准则的风险,即将统计信息减少到获得泛化性能提高和降低的程度之外而是通过利用数据样本的特性(例如噪声)获得的。贝叶斯方法之所以能更好地工作,是因为您没有优化任何东西,而是在所有可能的选择上进行边缘化(整合)。然后,问题在于对模型的先验信念的选择,因此一个问题消失了,而另一个问题出现了。1


1这包括在贝叶斯环境中最大化证据(边际似然)。有关此示例,请参见我的论文中高斯过程分类器的结果,其中,如果您拥有过多的超参数,则优化边际可能性会使模型变得更糟(请注意,根据边际可能性进行的选择将倾向于使用具有大量超参数的模型-由于这种形式的过度拟合而导致的参数)。

GC Cawley和NLC Talbot,模型选择中的过拟合和性能评估中的后续选择偏差,《机器学习研究杂志》,2010年。11,第2079-2107页,2010年7月。(pdf


+1,非常感谢,我会阅读您的论文,看看是否有其他问题,;-)
鳄梨

1
这里只需要注意,优化通常可以被认为是近似积分的-Laplace方法就是一个例子。当无法很好地集成时,优化通常会失败-因此,为什么REML通常比ML更好。
概率

@probabilityislogic,我不确定我是否理解,ML有点像MAP,没有执行集成。使用Laplace逼近法(按照我看过的用法)是在优化的意义上,即您对要集成的函数优化了一个逼近值,而不是对其进行积分,但是仍在进行积分。
迪克兰有袋博物馆,2014年

1
@dikran marsupial-也许一种更好的解释方式是,集成通常可以通过ML估算参数并将其约束为等于其MLE来很好地近似。拉普拉斯(Laplace)逼近为这种直觉提供了“校正因子”-就像REML一样。
probabilityislogic

@probabilityislogic感谢您的答复,我会考虑一下!
Dikran有袋动物2014年

7

通常,如果您使用的是“最小二乘”类型的回归模型,那么贝叶斯和ML之间实际上并没有太大的区别,除非您对回归参数使用了先验信息。针对具体情况:

1)不一定数据-仅当您有接近9个观测值时。如果您有100个观测值,那么大多数所谓的“过度拟合”系数将接近于零。而且几乎总是会导致“拟合不足”-因为会遗漏明显的曲率1H9H1

2)这对于多项式展开之类的“线性”不是正确的(“线性”是指相对于参数呈线性,而不是)。在无先验信息或样本量较大的情况下,最小二乘法的ML估计与后均值相同。实际上,您可以证明在各种模型下ML估计都可以认为是“渐近”后验均值。x

3)贝叶斯方法可以避免仅在适当的先验条件下过拟合。这以与您在某些拟合算法中看到的惩罚项相似的方式运行。例如,L2惩罚=正常先验,L1惩罚=拉普拉斯先验。


赞成,您说对了,随着手头的更多观察,不会过拟合。但是我是否认为过拟合是选择错误模型而不是ML本身的问题呢?而且我们可以在模型选择中使用贝叶斯方法,但是我们不能使用ML做到这一点,可以吗?H9
牛油果

当然,除了之外,这里所有H的选择都会是错误的模型。问题在于估算模型参数时存在误差,该参数同时具有偏差和方差成分。如果您使用贝叶斯准则选择模型,那么仍然可以使它过度拟合(我将在答案中添加参考以支持该观点)。H
迪克兰有袋博物馆,2014年

@loganecolss-我认为这里的比其他任何东西都更接近真相。过度拟合与样本量及其可以支持的模型结构类型(有时称为“确定性”模型)紧密相关。H9
概率

4

基本上,通过增加多项式的阶数来执行的工作是增加模型空间的参数数或自由度,即。它的尺寸。添加的参数越多,模型就越容易适合训练数据。但这也很大程度上取决于观察的数量。如果观察次数少,则模型和可能也过拟合训练数据,如果训练实例的数目足够大,则可能根本不拟合。2 3H1H2H3

例如,让我们粗略地夸张并假设您仅获得了训练示例,那么即使也总是会过拟合您的数据。小时12H1

例如,通过正则化强加先验的优点是参数要么缩小为零,要么缩小为其他预定义的值(如果愿意,您甚至可以添加参数以将系数“捆绑”在一起),因此您隐式地约束了参数和减少模型的“自由度”以过度拟合。例如,使用套索(即正则化或等效的拉普拉斯先验)并调整相应参数(例如,使用10x交叉验证)将自动摆脱多余的参数。贝叶斯解释是类似的:通过施加先验,您将参数约束为从整体数据推断出的更可能的值。l1


训练样本不足的简单假设(例如,h1,h2)将是拟合不足(对于cv)而不是拟合过度的示例,这是由于在给定的几个训练示例上存在模型偏差。
yekta
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.