浓度参数具有超先验分布的多项式-Dirichlet模型


10

我将尝试尽可能概括地描述当前的问题。我正在将观察建模为具有参数概率向量theta 的分类分布

然后,我假设参数向量theta遵循Dirichlet先验分布,参数为。α1,α2,,αk

那么是否可以对参数施加超先验分布呢?它必须是多元分布,例如分类分布和狄利克雷分布吗?在我看来,alpha总是为正,因此应优先使用gamma hyperprior。α1,α2,,αk

不知道是否有人尝试拟合这种(可能)过参数化的模型,但对我而言,认为阿尔法不应该是固定的而是来自伽马分布的,似乎是合理的。

请尝试为我提供一些参考,以及在实践中如何尝试这种方法的见解。


是的,这是可能的,并且已经完成。通常,这称为贝叶斯层次模型。优选地,该先验应该考虑可能的依赖性。

@Procrastinator谢谢。您对处理此类模型的良好贝叶斯分层模型有什么参考?谢谢。
Dnaiel 2012年

@Procrastinator:您是否想获取有关贝叶斯层次模型的任何论文/报告或理想的动手应用文档?
朱巴卜

Answers:


12

我认为这根本不是一个“过度参数化”的模型。我认为,通过在Dirichlet参数之前放置优先级,您对任何特定结果的投入都会减少。特别地,如你可能知道,对于对称狄利克雷分布(即)设定α < 1提供了更多的先验概率,以稀疏多项分布,而α > 1提供了更多的先验概率来平滑多项式分布。α1=α2=...αKα<1α>1

如果人们对稀疏或密集的多项式分布都不抱有很高的期望,则在Dirichlet分布上放置一个超优先级可以使模型在它们之间进行选择时具有更大的灵活性。

我最初是从这篇论文中想到的。他们使用的超级优先级与您的建议稍有不同。他们从狄利克雷采样概率向量,然后通过从指数(或伽马)中抽取来缩放它。所以模型是

βDirichlet(1)λExponential()θDirichlet(βλ)

额外的Dirichlet只是为了避免施加对称性。

我还看到人们在具有多项发射分布的隐马尔可夫模型的背景下,仅对Dirichlet使用Gamma hyper优先级,但我似乎找不到参考。另外,似乎我遇到了主题模型中使用的类似超级链接。


谢谢,谢谢!我有一个简短的后续问题,这个模型会为每个θ提供不同的可变性吗?我有这个问题,因为参数lambda在所有theta中共享,因此它们都共享相同的缩放参数,因此我想知道在过度分散的情况下该模型是否会提供这种灵活性。非常感谢您的直觉/知识!谢谢!
Dnaiel 2012年

Dirichlet(0.2,0.2,0.2,0.2)θθβ

4

为了演示针对此优先级问题的解决方案,我在PyMC3中实现了分层的gamma-Dirichlet-多项式模型。Dirichlet的先验伽玛值由Ted Dunning的博客文章指定和采样。

我实现的模型可以在此要点找到,但也将在下面进行描述:

这是用于电影分级的贝叶斯分层(池)模型。每部电影的评分范围为零到五。每部电影都被评级几次。我们希望找到每部电影的收视率分布平滑。

我们将从数据中了解电影分级的高级先验分布(超优先级)。然后,每部电影都有其自己的先验,并可以通过此顶级先验平滑。对此的另一种思考方式是,将每部电影的收视率先于组级别或集中发行。

如果电影的收视率分布不典型,则这种方法会将收视率缩小到与预期更符合的水平。此外,这种先验知识对于引导评级很少的电影可能非常有用,以使它们与评级很多的电影相比有意义。

该模型如下:

γk=1...KGamma(α,β)

θm=1...MDirichletM(cγ1,...,cγK)

zm=1...M,n=1...NmCategoricalM(θm)

哪里:

  • KK=6
  • M
  • Nmm
  • α=1/K
  • β
  • c
  • γkk
  • θmK
  • zmnnm

1

这是直接的贝叶斯共轭先验建模。Beta-Binomial模型的自然扩展。这方面的一个很好的资源可能来自这本书。后验也是Dirichlet,因此从dirichlet进行模拟将提供必要的摘要


1
谢谢。我对这样的书很熟悉,很有参考价值。我尝试研究它,但是它们没有直接提供这样的多项式层次模型,但是确实有很多可以应用的好主意。
Dnaiel 2012年

1
Dirichlet-多项式是一个共轭模型,但操作员先查询了Dirichlet的参数(超)。Dirichlet分布没有先验标准共轭物,尽管事实上必须存在,因为它是指数族的成员。
jerad
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.