为什么添加滞后效应会增加贝叶斯分层模型中的平均偏差?


14

背景:我目前正在做一些比较各种贝叶斯层次模型的工作。数据是参与者i和时间j的幸福感的数字量度。我大约有1000位参与者,每位参与者5到10个观察值。ÿ一世Ĵ一世Ĵ

像大多数纵向数据集一样,我希望看到某种形式的自相关,其中时间上较近的观测值比距离较远的观测值具有更大的相关性。简化几件事,基本模型如下:

ÿ一世Ĵñμ一世Ĵσ2

我在比较无滞后模型的地方:

μ一世Ĵ=β0一世

使用滞后模型:

μ一世Ĵ=β0一世+β1个ÿ一世Ĵ-1个-β0一世

其中是一个人级的均值和ββ0一世β1个ÿ一世0

我得到的结果表明:

  • 滞后参数约为0.18,95%CI [.14,.21]。即非零
  • 当模型中包含滞后时,平均偏差和DIC都会增加数百
  • 后验预测检查表明,通过包括滞后效应,模型可以更好地恢复数据中的自相关

因此,总的来说,非零滞后参数和后验预测表明滞后模型更好。但均值偏差和DIC表明无滞后模型更好。这让我感到困惑。

我的一般经验是,如果添加有用的参数,则至少应减少平均偏差(即使在复杂度降低后DIC也不会得到改善)。此外,滞后参数的零值将实现与无滞后模型相同的偏差。

为什么即使滞后参数不为零并且增加滞后效应,也可以增加贝叶斯分层模型中的平均偏差,从而改善后验预测性检查?

最初的想法

  • 我已经做了很多 收敛性检查(例如,查看轨迹图;检查跨链和跨运行的偏差结果的变化),并且两个模型似乎都收敛于后验。
  • 我已经执行了代码检查,将滞后效应强制为零,这确实恢复了无滞后模型偏差。
  • 我还研究了平均偏差减去惩罚值,该偏差值应使偏差超出预期值,这也使滞后模型显得更糟。
  • β0i
  • 我如何估计第一次观察之前的隐含时间点可能存在一些问题。
  • 在此数据中,滞后效应可能只是微弱的
  • 我尝试使用lme与的最大相似度来估计模型correlation=corAR1()。滞后参数的估计值非常相似。在这种情况下,与没有滞后的模型相比,滞后模型具有更大的对数可能性和较小的AIC(大约100)(即,它表明滞后模型更好)。因此,这加强了这样的想法,即增加滞后还应降低贝叶斯模型中的偏差。
  • 贝叶斯残差也许有一些特殊之处。如果滞后模型使用前一时间点的预测y与实际y之差,则此数量将不确定。因此,滞后效应将在此类残值的可靠区间内运行。

您说lag参数约为0.18。您学会了滞后参数吗?如果是,您以前使用过什么?
峰会

N(β0i,σ2

Answers:


1

这是我的想法:

  • 如果可以承受的话,我建议直接使用边际可能性(也称为证据)代替DIC,BIC,AIC 。证据越大,您的模型类别就越有可能。可能差别不大,但毕竟DIC,BIC,AIC只是近似值。
  • 0.18
  • 让我们更进一步:采取不考虑滞后效应(c)的模型,并计算其边际可能性。接下来,采用模型模型(d),该模型模型包含了滞后效应并且对滞后参数具有先验知识;计算(d)的边际可能性。您可能希望(d)的边际可能性更大。那如果不呢?:

    (1)边际可能性将模型类整体考虑。这包括滞后效应,参数数量,似然性,先验性。

    (2)如果附加参数的先验存在较大的不确定性,则比较具有不同参数数量的模型总是很棘手。

    (3)如果您将滞后参数的先验不确定性指定为过大,则会对整个模型类别进行惩罚。

    (4)支持负延迟和正延迟的概率相等的信息是什么?我认为观察到负滞后的可能性很小,这应该在以前纳入。

    (5)在滞后参数上选择的先验是一致的。通常这从来都不是一个好选择:您是否绝对确定您的参数必须确实在指定范围内?边界内的每个滞后值是否真的具有相等的可能性?我的建议:使用beta分布(如果您确定滞后是有限的;或者如果可以排除小于零的值,则使用对数正态。

    (6)这是一个特殊的示例,在该示例中,使用非信息性先验的效果不好(从边际可能性看):您将始终偏爱具有较少不确定参数的模型;具有更多参数的模型可以做的好坏无关紧要。

希望我的想法能给您一些新的主意,提示?!


感谢您的提示。只是为了弄清楚,我尝试约束lag参数以具有后验平均值的值(即0.18)。无滞后模型的平均偏差仍然较小。
Jeromy Anglim
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.