Questions tagged «dirichlet-process»

2
主题模型中的主题稳定性
我正在一个项目中,我要提取有关一系列开放式论文内容的信息。在这个特定的项目中,作为大型实验的一部分,有148人撰写了有关假设的学生组织的文章。尽管在我的领域(社会心理学),分析这些数据的典型方法是手工编写论文,但我想定量地进行此操作,因为手工编码既费工又过于主观味道。 在对定量分析免费响应数据的方法进行调查期间,我偶然发现了一种称为主题建模(或潜在Dirichlet分配或LDA)的方法。主题建模采用数据的单词袋表示(术语文档矩阵),并使用有关单词共现的信息来提取数据的潜在主题。这种方法对我的应用程序似乎很完美。 不幸的是,当我将主题建模应用于数据时,我发现了两个问题: 主题建模发现的主题有时很难解释 当我使用其他随机种子重新运行主题模型时,主题似乎发生了巨大变化 我特别关心第2期。因此,我有两个相关的问题: 在LDA程序中,我可以做些什么来优化我的模型拟合程序的可解释性和稳定性?就我个人而言,我不太关心寻找具有最低困惑度和/或最佳模型拟合度的模型-我主要是想使用此过程来帮助我理解和表征本研究参与者在论文中写的内容。但是,我当然不希望我的结果成为随机种子的假象! 与上述问题相关,LDA是否需要多少数据的标准?我见过的大多数使用这种方法的论文都分析了大型语料库(例如,过去20年中所有科学论文的档案),但是,由于我使用的是实验数据,因此我的文档语料库要小得多。 我在这里张贴了论文数据,以供任何想弄脏他或她的手的人使用,并且我在下面粘贴了我正在使用的R代码。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the LIWC function …

3
是否有贝叶斯方法进行密度估算
我有兴趣估算连续随机变量的密度。我学到的一种方法是使用内核密度估计。XXX 但是现在,我对遵循以下思路的贝叶斯方法感兴趣。我最初认为服从分配。我采取的读数。有什么方法可以根据我的新读物来更新?XXXFFFnnnXXXFFF 我知道我听起来好像在自相矛盾:如果我只相信是我的先前发行记录,那么没有数据可以说服我。但是,假设是而我的数据点是。看到,我显然不能坚持以前的做法,但是应该如何更新呢?FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 更新:根据评论中的建议,我开始研究Dirichlet过程。让我使用以下符号: G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) 用这种语言构架了我原来的问题之后,我想我对以下内容感兴趣:。如何做到这一点?θn+1|x1,...,xnθn+1|x1,...,xn\theta_{n+1} | x_1,...,x_n 在这套笔记(第2页)中,作者举了的示例。(Polya方案)。我不确定这是否相关。θn+1|θ1,...,θnθn+1|θ1,...,θn\theta_{n+1} | \theta_1,...,\theta_n 更新2:我也想问(在看到注释之后):人们如何选择DP的?似乎是一个随机选择。另外,人们如何为DP 选择先前的?我应该只使用先验作为先验吗?αα\alphaHHHθθ\thetaHHH

2
Dirichlet聚类流程:如何处理标签?
问:使用Dirichlet流程对数据进行聚类的标准方法是什么? 使用吉布斯采样时,采样簇会出现并消失。此外,由于后验分布对于聚类重标记是不变的,因此我们存在可识别性问题。因此,我们不能说哪个是用户集群,而是两个用户在同一个集群中(即)。p(ci=cj)p(ci=cj)p(c_i=c_j) 我们可以总结一下类的分配,以便如果是点的集群分配,那么现在不仅是而且是?cicic_iiiici=cjci=cjc_i=c_jci=cj=cj=...=czci=cj=cj=...=czc_i=c_j=c_j=...=c_z 这些是我找到的替代方案,也是为什么我认为它们不完整或被误导的原因。 (1)DP-GMM + Gibbs采样+基于对的混淆矩阵 为了将Dirichlet过程高斯混合模型(DP-GMM)用于聚类,我实现了本文,其中作者提出了使用Gibbs采样进行密度估计的DP-GMM 。 为了探讨集群性能,他们说: 由于在[MCMC]链上组件的数量发生了变化,因此需要形成一个混淆矩阵,显示每个数据对在整个链中分配给同一组件的频率,见图6。 缺点:这不是真正的“完整”群集,而是成对群集。该图看起来不错,因为我们知道了真实的簇,并据此安排了矩阵。 (2)DP-GMM + Gibbs采样+采样直到没有任何变化 我一直在搜索,发现有些人声称使用Gibbs采样器基于Dirichlet Process进行聚类。例如,这篇文章认为当聚类数量或均值没有更多变化时,链收敛,因此可以从那里获得汇总。 缺点:我不确定这是否允许,因为如果我没有记错的话: (a)在MCMC期间可能会有标签切换。 (b)即使在固定分布中,采样器也可以不时创建一些簇。 (3)DP-GMM + Gibbs采样+选择最可能划分的采样 在本文中,作者说: 在“老化”阶段之后,可以从Gibbs采样器中提取来自IGMM后分布的无偏样本。可以通过绘制许多此类样本并使用类别指标变量的联合可能性最高的样本来找到硬聚类。我们使用M. Mandel编写的经过修改的IGMM实现。 缺点:除非这是一个折叠的吉布斯采样器,我们仅对分配进行采样,否则我们可以计算而不是边际。(取而代之的是获得具有最高的状态,这是一个好习惯吗?)p (c)p (c,θ )p(c|θ)p(c|θ)p(\mathbf{c} | \theta)p(c)p(c)p(\mathbf{c})p(c,θ)p(c,θ)p(\mathbf{c}, \theta) (4)具有可变推论的DP-GMM: 我已经看到一些库使用变分推理。我不太了解变分推理,但我想您那里没有可识别性问题。但是,我想坚持使用MCMC方法(如果可能)。 任何参考将有所帮助。

3
浓度参数具有超先验分布的多项式-Dirichlet模型
我将尝试尽可能概括地描述当前的问题。我正在将观察建模为具有参数概率向量theta 的分类分布。 然后,我假设参数向量theta遵循Dirichlet先验分布,参数为。α1个,α2,… ,αķα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 那么是否可以对参数施加超先验分布呢?它必须是多元分布,例如分类分布和狄利克雷分布吗?在我看来,alpha总是为正,因此应优先使用gamma hyperprior。α1个,α2,… ,αķα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 不知道是否有人尝试拟合这种(可能)过参数化的模型,但对我而言,认为阿尔法不应该是固定的而是来自伽马分布的,似乎是合理的。 请尝试为我提供一些参考,以及在实践中如何尝试这种方法的见解。

1
通过随机度量进行集成意味着什么?
目前,我在看Dirichlet过程随机效应模型的纸和型号规格如下: 其中α是比例参数和G ^0是基量度。稍后在纸,它表明,我们整合在基座度量函数G ^0如 ∫˚F(Ý Ĵ |θ,ψ Ĵ)ÿ一世ψ一世G= X一世β+ ψ一世+ ϵ一世〜g ^〜d P(α ,G0)yi=Xiβ+ψi+ϵiψi∼GG∼DP(α,G0) \begin{align*}y_{i} &= X_{i}\beta + \psi_{i} + \epsilon_{i}\\ \psi_{i} &\sim G \\ G &\sim \mathcal{DP}\left(\alpha, G_{0}\right) \end{align*}αα\alphaG0G0G_{0}G0G0G_{0}Dirichlet处理中的基本度量是cdf还是pdf?如果基本度量是高斯会怎样?∫F(yĴ| θ, ψĴ)dG0(ψĴ)。∫f(yj|θ,ψj)dG0(ψj). \int f\left(y_{j}|\theta, \psi_{j}\right)\, dG_{0}\left(\psi_{j}\right).
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.