贝叶斯不需要测试集是真的吗？

我最近观看了埃里克·马（Eric J. Ma）的演讲，并查看了他的博客文章，他引用了拉德福德·尼尔（Radford Neal）的观点，认为贝叶斯模型不会过拟合（但可以过拟合），并且在使用它们时，我们不需要测试集来验证它们（对于在我看来，引号似乎是在谈论使用验证集来调整参数）。老实说，这些论点并不能说服我，而且我也无权阅读这本书，因此，您能为这种说法提供更详细，更严格的论点吗？

顺便说一句，在此同时，埃里克·马指出我讨论关于同一主题。

— 蒂姆
source

关于该论点，该论证的一个主要漏洞是：如果您正在执行MCMC，则如果您没有完全探究后验，则您的推论完全无效。如果要在贝叶斯神经网络上进行推断，则几乎可以肯定没有使用MCMC探索过很大的后验。因此，最好拆分数据以再次检查推断！

— Cliff AB

要考虑的一件事是我们要评估或验证什么？可能是我们没有使用所有信息（无论是先验信息还是可能性信息）。检查模型适合度可以帮助回答这个问题。

— 概率

如果我们使用“一个真实模型”和“真实先验”来反映一些适当捕获的先验信息，那么据我所知，贝叶斯确实不存在过拟合问题，并且鉴于很少的数据，后验预测分布将具有适当的不确定性。但是，如果我们使用某种实际选择的模型（即我们已经确定，例如，危险率随时间推移是恒定的，并且指数模型是合适的，或者例如，模型中没有某些协变量=系数为零的先点），默认无信息或正则化先验，那么我们真的不知道这是否仍然适用。在那种情况下，（超）优先级的选择具有一定的随意性，可能会也可能不会导致样本预测不足。

因此，非常合理地提出这样一个问题，即超参数选择（=超优先级的参数）与所选择的似然性结合是否会很好地执行。实际上，您可以轻松地决定，调整超参数以获得某些所需的预测性能是个好主意。从这个角度来看，用于调整超参数的验证集（或交叉验证）和测试集以确认性能非常合理。

我认为，这与安德鲁·盖尔曼（Andrew Gelman）在其博客上的许多讨论紧密相关（例如，参见博客条目1，博客条目2，关于Stan的LOO的博客条目3，以及关于后验预测检查的讨论），在此他讨论了围绕（在某种意义上是正确的）声称贝叶斯不应该检查其模型是否有意义以及有关实际贝叶斯模型评估的信息。

当然，我们经常对设置中使用贝叶斯方法最感兴趣，因为在这种情况下先验信息很少，我们希望使用一些信息性先验。到那时，通过测试集的验证和评估获得足够的数据以到达任何地方可能会有些棘手。

— 比约恩
source

因此，我回答了您引用的关于过拟合的问题，并且观看了视频并阅读了博客文章。Radford Neal并不是说贝叶斯模型不会过拟合。让我们记住，过度拟合是将噪声视为信号并包含在参数估计中的现象。这不是模型选择错误的唯一原因。尼尔（Neal）的讨论范围更广，尽管他尝试采用小样本量的想法，但他冒险进行过度拟合的讨论。

让我部分修改我之前的帖子，即贝叶斯模型可以过度拟合所有贝叶斯模型的过度拟合，但是这样做可以改善预测。再次，回到混淆信号和噪声的定义，贝叶斯方法的不确定性，后验分布是对什么是信号和什么是噪声的不确定性的量化。这样做时，贝叶斯方法将噪声纳入信号的估计中，因为整个后验被用于推理和预测。贝叶斯方法中过拟合和模型分类误差的其他来源是另一种类型的问题。

为简化起见，让我们采用马云的讲话结构，专注于线性回归，避免进行深度学习讨论，因为正如他指出的那样，他提到的替代方法只是功能的组合，线性逻辑之间存在直接联系回归和深度学习。

考虑下面的势模型让我们创建一个大小为的宽样本，该样本由两个子样本，其中是训练集，是验证集。我们将了解为什么，在某些警告之下，贝叶斯方法不需要单独的训练和验证集。

ÿ = β_{0} + β_{1个} X_{1个} + β_{2} X_{2} + β_{3} X_{3} 。

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

$m_1\dots{_8}$

ÿ = β_{0} + β_{1个} X_{1个} + β_{2} X_{2} + β_{3} X_{3} ，

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

ÿ = β_{0} ，

$y=\beta_0,$

ÿ = β_{0} + β_{1个} X_{1个} ，

$y=\beta_0+\beta_1x_1,$

ÿ = β_{0} + β_{2} X_{2} ，

$y=\beta_0+\beta_2x_2,$

ÿ = β_{0} + β_{3} X_{3} ，

$y=\beta_0+\beta_3x_3,$

ÿ = β_{0} + β_{1个} X_{1个} + β_{2} X_{2} ，

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

ÿ = β_{0} + β_{1个} X_{1个} + β_{3} X_{3} ，

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

ÿ = β_{0} + β_{2} X_{2} + β_{3} X_{3} ，

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

ÿ = β_{0} + β_{1个} X_{1个} ，

$y=\beta_0+\beta_1x_1,$

ÿ = β_{0} + β_{2} X_{2} ，

$y=\beta_0+\beta_2x_2,$

ÿ = β_{0} + β_{3} X_{3} 。

$y=\beta_0+\beta_3x_3.$

$n_1,$

举一个真实的例子，我测试了78种破产模型。在78个模型中，其中76个模型的组合后验概率约为百分之一的十分之一。其他两个模型分别约为54％和46％。幸运的是，他们也没有共享任何变量。这样一来，我就可以选择两个模型，而忽略其他模型。76.当我同时拥有两个模型的所有数据点时，我根据两个模型的后验概率对它们的预测取平均值，而当我缺少数据模型时，仅使用一个模型即可。其他。虽然我确实有一个训练集和一个验证集，但出于不同的原因，频率主义者会选择它们。此外，在两个业务周期的每一天结束时，我都用每天的数据更新了后代。这意味着我在验证集末尾的模型不是训练集末尾的模型。贝叶斯模型不会停止学习，而频繁性模型则会停止学习。

ÿ = β_{0} + β_{1个} X_{1个} + β_{2} X_{2} + β_{3} X_{3} 。

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

ÿ = β_{0} + β_{1个} X_{1个} + β_{3} X_{3} 。

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

$n_2^i$

模型是贝叶斯思想中的参数，因此是随机的，或者（如果您愿意）不确定的。这种不确定性不会在验证过程中结束。它会不断更新。

由于贝叶斯方法和频率方法之间的差异，因此还必须考虑其他类型的情况。第一个来自参数推断，第二个来自形式化预测。在贝叶斯方法中，它们不是同一回事。贝叶斯方法正式将推理和决策分开。他们还分离出参数估计和预测。

$\hat{\sigma^2}<k$

$k$ $n_2$ $n_1$

$n_1$ $n_1$ $n_2$ $n_2$

$n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ 尽管确实存在频率预测系统，但大多数人只是将点估计值视为真实参数并计算残差。贝叶斯方法将针对预测密度对每个预测评分，而不仅仅是一个点。这些预测不取决于与Frequentist解决方案中使用的点方法不同的参数。

$n_1+n_2>n_1$

如果没有重要的先验信息，并且使用频率预测密度而不是点估计，则对于固定样本，如果选择单个模型，则贝叶斯和频率分布方法的结果将相同。如果存在先验信息，则贝叶斯方法将倾向于生成更准确的预测。实际上，这种差异可能很大。此外，如果存在模型平均，那么贝叶斯方法很有可能会更健壮。如果使用模型选择并冻结贝叶斯预测，则使用基于频率预测的频率模型没有区别。

我使用了测试和验证集，因为我的数据不可交换。结果，我需要解决两个问题。第一种类似于MCMC方法中的老化。我需要一组良好的参数估计来启动测试序列，因此我使用了五十年的先前数据来获得良好的先前密度来启动验证测试。第二个问题是，我需要某种形式的标准化期限来进行测试，以便不会质疑该测试。我使用了NBER指出的前两个业务周期。

— 戴夫·哈里斯（Dave Harris）
source

但是，然后说您估计了先验“无信息”的线性回归模型的MAP。这等同于获得模型的最大似然估计，因此假设可交换性，ML也不需要测试集。

— 蒂姆

“过度拟合是将噪声视为信号并包含在参数估计中的现象”，我相信此定义特定于加性噪声模型。否则，过度拟合与欠拟合的定义不太明确。

— Cagdas Ozgenc

@CagdasOzgenc谢谢。您有建议的修改吗？

— 戴夫·哈里斯

@Tim我从未提到过MAP估算器。如果将问题简化为MAP估计器，那么您将放弃鲁棒性。MAP估计器是在密度上最小化成本函数的点。如果密度缺乏足够的统计量，这对于投影可能会产生问题。MAP估计器本质上将丢失信息。如果您使用的不是原始问题中的MAP估计器，并且显然不是Ma的介绍的一部分，那么您将自己创建一系列不同的问题。

— 戴夫·哈里斯

@Tim MAP估计器来自贝叶斯决策理论，是贝叶斯估计和推断之上的覆盖。MAP很方便。选择便利时需要付出代价。除非全有或全无的成本函数是您的真实成本函数，否则您将同时放弃信息和准确性。您还会遇到与Ma的演讲中提出的方法论问题不同的方法论问题。

— 戴夫·哈里斯