交叉验证与经验贝叶斯估计超参数

给定一个层次模型，我想要一个两阶段的过程来拟合模型。首先，固定少数几个超参数，然后对其余参数进行贝叶斯推断。为了修复超参数，我正在考虑两种选择。 $p(x|\phi,\theta)$ $\theta$ $\phi$

使用经验贝叶斯（EB）并最大化边际可能性（整合包含高维参数的模型的其余部分）。 $p(\mbox{all data}|\theta)$
使用交叉验证（CV）技术（例如倍交叉验证）来选择使似然性最大化的。 $k$ $\theta$ $p(\mbox{test data}|\mbox{training data}, \theta)$

EB的优势在于，我可以一次使用所有数据，而对于CV，我需要（潜在地）多次计算模型似然并搜索。在许多情况下，EB和CV的性能是可比的（*），通常EB的估算速度更快。 $\theta$

问题：是否存在将两者联系起来的理论基础（例如，EB和CV在大数据限制内是相同的）？还是将EB与某些通用性标准（例如经验风险）联系起来？有人可以指出良好的参考资料吗？

（*）作为说明，这是墨菲的机器学习（Murphy's Machine Learning）第7.6.4节中的图，他说，对于岭回归，两个过程都产生非常相似的结果：

墨菲还说，经验贝叶斯（他称其为“证据程序”）相对于CV的主要实践优势是，当由许多超参数组成时（例如，对每个特征进行单独惩罚，如自动相关性确定或ARD）。根本不可能使用CV。 $\theta$

cross-validation references empirical-bayes

— 记忆
source

您能否更详细地描述交叉验证方法的工作？您是否先确定

，然后使用训练数据在验证之前估算其他参数？

θ

$\theta$

— 尼尔·G

@NeilG最大化交叉验证集上对数边际预测数据可能性的总和（k被积分）。

— 2012年

如果两次都将

积分，那么CV和EB之间有什么区别？

k

$k$

— 尼尔·G

好问题。我自由地在您的问题中添加了墨菲教科书中的一个数字，以说明您对两个程序通常具有可比性的观点。希望您不会介意此添加。

— 变形虫说莫妮卡（Monica）恢复职权

Answers:

我怀疑是否存在理论上的联系，即CV和证据最大化在渐近上是等价的，因为根据模型的假设，证据告诉我们数据的概率。因此，如果模型指定不正确，则证据可能不可靠。另一方面，交叉验证可估计数据的概率，无论建模假设是否正确。这意味着，如果使用较少的数据进行建模假设是正确的，则证据可能是更好的指南，但是交叉验证对于模型错误指定将是可靠的。CV渐近无偏，但是除非模型假设恰好正确，否则我认为证据不是。

这本质上是我的直觉/经验；我也想听听有关此方面的研究。

请注意，对于许多模型（例如，岭回归，高斯过程，核岭回归/ LS-SVM等），留一法交叉验证的执行效率至少与估计证据的效率相同，因此不必进行计算那里的优势。

附录：边际可能性估计和交叉验证性能估计都是在有限的数据样本上进行评估的，因此，如果通过优化任一准则对模型进行调整，总是存在过度拟合的可能性。对于小样本，两个标准的方差之差可以决定哪个效果最好。看我的论文

加文·考利（Gavin C. Cawley），尼古拉·LC·塔尔伯特（Nicola LC Talbot），“模型选择中的过拟合和性能评估中的后续选择偏差”，《机器学习研究杂志》，第11卷，（7月）：2079−2107，（pdf）

— 迪克兰有袋动物
source

为什么您说CV对错误指定的模型具有鲁棒性？在他的情况下，由于交叉验证是在与EB计算可能性的相同空间上进行搜索，因此没有这种保护。如果他的建模假设是错误的，那么交叉验证将无法挽救他。

— 尼尔·G

ϕ

$\phi$

ϕ

$\phi$

θ

$\theta$

ps：我一直在进行分析，以通过贝叶斯正则化避免神经网络过拟合，在贝叶斯正则化中，通过边际似然最大化来调整正则化参数。在某些情况下，此方法的效果非常差（比根本没有任何正规化效果更糟）。这似乎是模型错误指定的问题。

— 迪克兰有袋动物博物馆，2012年

在给定EB返回的估计分布（等于该分布的熵）的情况下，通过检查数据的总对数概率，他可以得到相同的“泛化性能指标”。在这种情况下，无法克服它，因为它是此问题的解析解决方案。我不明白为什么当您可以计算EB的可能性时，交叉验证为什么有意义。

— 尼尔·G

@probabilityislogic，我不太确定您会遇到什么（毫无疑问，这是我的问题！； o）。我可以通过实际经验告诉您，这个问题是非常真实的。我从事模型选择方面的问题已经有好几年了，并且遇到了很多问题，其中最大程度地提高边际可能性是一个非常糟糕的主意。交叉验证在大多数数据集上的表现也差不多，但是在交叉验证中表现不佳的情况下，它很少像证据最大化那样具有灾难性的表现。

— Dikran有袋动物2012年

-1

$k$ $k$

— 尼尔·G
source