贝叶斯模型中交叉验证的稳定性


19

我正在使用k倍交叉验证(k = 5)在JAGS中拟合贝叶斯HLM。我想知道参数估计值在所有折叠中是否稳定。最好的方法是什么?β

一种想法是找到后代的差异,并查看差异的95%CI是否为0。换句话说,在的95%间隔中为0 (然后对所有对折重复)。ββk=1βk=2

另一个想法是将来自每个褶皱的后代视为不同的MCMC链,并计算这些伪链上的Gelman的(势能缩减因子)。R^

其中之一是可取的,还有替代品吗?


1
看到零差是否在可信差异之中会感到很奇怪,因为您肯定希望倍数之间存在一些差异。一个建议是计算每个折叠点估计并查看它们的分布。β
RasmusBååth2014年

3
只是对交叉验证和贝叶斯方法的一般评论:为什么不仅仅计算WAIC?它渐近等效于LOOCV,您仍然可以使用所有数据。
垃圾平衡

1
你将如何产生的后模拟βk=1βk=2
斯蒂芬·洛朗

在我以前的工厂进行的测试中,我们必须证明0%的成品率损失在95%CI中。充足,独立的样本和二项式检验的性质是主要问题。您能否大致了解样本量是多少?
EngrStudent-恢复莫妮卡2015年

Answers:


2

我不知道这是否可以视为评论或答案。我放在这里是因为感觉就像是一个答案。

在k倍交叉验证中,您将数据分为k组。如果您甚至涵盖了“基本知识”,那么您将为k个垃圾箱中的每一个统一选择成员。

当我谈论数据时,我将每一行都视为一个样本,并将每一列都视为一个维度。我习惯于使用各种方法来确定变量的重要性,列的重要性。

如果作为思想练习,您偏离了“教科书”统一的规则,并确定了哪些行很重要,该怎么办?也许他们一次通知一个变量,但也许他们通知更多。是否有一些行不如其他行重要?也许很多观点是有益的,也许很少。

了解变量的重要性,也许您可​​以按重要性对其进行分类。也许您可以将最重要的样本放在单个容器中。这可以定义“ k”的大小。这样,您将确定“信息最丰富”的第k个存储桶,并将其与其他信息和信息最少的存储桶进行比较。

这可以使您了解模型参数的最大变化。这只是一种形式。

分割第k个桶的第二种方法是根据影响的大小和方向。因此,您可以将在一个方向上摇摆一个或多个参数的样本放入一个存储桶中,并将在相反方向上摇摆相同的一个或多个参数的样本放入另一个存储桶中。

这种形式的参数变化可能不基于信息密度而是基于信息种类来对变量进行更广泛的扫描。

祝你好运。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.