贝叶斯方法不会过拟合是真的吗？

25

贝叶斯方法不会过拟合是真的吗？（我看到了一些论文和教程对此提出了要求）

例如，如果我们对MNIST（手写数字分类）应用高斯过程，但仅将其显示为单个样本，那么对于与该单个样本不同的任何输入，无论差异有多小，它都会恢复到先前的分布吗？

— 最大B
source

只是在想-您是否可以通过数学上精确的方式定义“过度拟合”？如果可以的话，很可能您也可以将功能内置到似然函数中或先验函数中以避免发生。我的想法是，这个概念听起来与“离群值”相似。

— 概率

25

不，那不是真的。贝叶斯方法肯定会过拟合数据。有几件事使贝叶斯方法在抵制过度拟合方面更强大，您也可以使它们更脆弱。

当某人缺乏零假设方法的“真实”模型时，贝叶斯假设（而不是二元假设）的组合性质允许进行多重比较。贝叶斯后验有效地惩罚了模型结构的增加，例如增加变量，同时奖励了拟合度的提高。惩罚和收益不是非贝叶斯方法中的优化，而是来自新信息的概率转移。

虽然这通常会提供一种更可靠的方法，但存在一个重要的限制，那就是使用适当的先验分布。尽管有一种趋势是想通过使用固定优先级来模仿频率论方法，但这并不能确保找到正确的解决方案。关于贝叶斯方法过拟合的文章很多，在我看来，似乎似乎是要从严格的先验先验开始，试图对非贝叶斯方法“公平”。困难在于先验对标准化可能性很重要。

从Wald的可接纳性这个角度来说，贝叶斯模型是本质上最优的模型，但是其中存在一个隐藏的柏忌人。Wald假定先验是您的真实先验，而不是您使用的先验，这样编辑人员就不会在其中投入过多信息。在与频率模型相同的意义上，它们不是最佳的。常用方法从最小化方差的优化开始，同时保持无偏。

这是一项代价高昂的优化，因为它会丢弃信息，并且从Wald的意义上讲本质上是不允许的，尽管它经常是可以接受的。因此，在无偏见的情况下，Frequentist模型可为数据提供最佳拟合。贝叶斯模型既不是无偏也不是对数据的最佳拟合。这是您要进行的最小化过度拟合的交易。

贝叶斯模型是固有偏差模型，除非采取特殊步骤使它们无偏差，否则通常不适合数据。他们的优点是，他们使用的信息绝不会比使用替代方法查找“真实模型”的方法少，并且这些附加信息使贝叶斯模型的风险不会比替代模型的风险低，尤其是在进行样本研究时。就是说，将始终存在一个可以随机抽取的样本，该样本将系统地“欺骗”贝叶斯方法。

至于问题的第二部分，如果您要分析单个样本，则后验将在其所有部分永久更改，除非存在第二个样本恰好抵消了样本中的所有信息，否则后验将不会恢复原样。第一个样本。至少在理论上是这样。在实践中，如果先验知识足以提供信息，而观察信息不足以提供信息，则影响可能很小，以致由于有效位数的限制，计算机无法测量差异。对于计算机来说，效果可能太小而无法处理后验变化。

因此答案是“是”，您可以使用贝叶斯方法过度拟合样本，特别是如果样本量较小且先验条件不正确时。第二个答案是“不”。贝叶斯定理永远不会忘记先验数据的影响，尽管影响可能很小，以至于您在计算上会错过它。

— 戴夫·哈里斯（Dave Harris）
source

2

在他们开始于最小化方差，同时保持无偏的优化。，什么是他们？

— 理查德·哈迪

只有极少数模型（实质上是度量为零的集合）允许形成无偏估计量。例如，在正常的模型中，没有无偏估计量。确实，大多数时候我们最大化可能性，最后得到的是有偏估计。

N (θ, σ^{2})

$N(\theta, \sigma^2)$

σ

$\sigma$

— 安德鲁·M

1

@AndrewM：有是的无偏估计在正常模式- stats.stackexchange.com/a/251128/17230。

σ

$\sigma$

— Scortchi-恢复莫妮卡

11

需要注意的是，与几乎所有其他地方一样，贝叶斯方法中的一个重要问题可能是模型错误指定。

这是很明显的一点，但是我认为我仍然会分享一个故事。

本科生的小插图...

贝叶斯粒子滤波的经典应用是跟踪机器人在房间中移动时的位置。运动扩大了不确定性，而传感器读数减少了不确定性。

我记得编写一些例程来执行此操作。我写出了一个明智的，具有理论动机的模型，用于观察在给定真实值的情况下观察各种声纳读数的可能性。一切都精确地衍生和编码精美。然后我去测试...

发生了什么？彻底失败！为什么？我的粒子过滤器迅速想到传感器的读数已消除了几乎所有的不确定性。我的点云崩溃到了一定程度，但是我的机器人不一定在那个时候！

基本上，我的似然函数很差；我的传感器读数没有我想的那么丰富。我过拟合。一个办法？我混入了更多的高斯噪声（以一种特殊的方式），点云不再崩溃，然后滤波效果非常好。

道德？

正如Box所说的那样：“所有模型都是错误的，但有些模型是有用的。” 几乎可以肯定的是，您将没有真正的似然函数，并且如果没有足够的可能性，您的贝叶斯方法可能会出现严重的偏差和过度拟合。

添加先验并不能神奇地解决由于假设观测值不是IID而导致的问题，假设可能性比其更大的曲率等等。

— 马修·冈恩
source

3

“来自本科生的小插图...贝叶斯粒子过滤的经典应用是跟踪机器人在房间中移动时的位置” ...哇，您的本科生在哪里？:)

— Cliff AB