当我大致了解比例应该是多少时,我一直在使用对数正态分布作为比例参数的先验分布(对于正态分布,t分布等),但想犯错误的一面是我不知道关于它。我之所以使用它,是因为该用法对我来说很直观,但是我还没有看到其他人使用它。有任何隐藏的危险吗?
当我大致了解比例应该是多少时,我一直在使用对数正态分布作为比例参数的先验分布(对于正态分布,t分布等),但想犯错误的一面是我不知道关于它。我之所以使用它,是因为该用法对我来说很直观,但是我还没有看到其他人使用它。有任何隐藏的危险吗?
Answers:
我建议使用“第二种Beta分布”(简称Beta 2)来获得适度的信息分布,如果您有强烈的先验信念,则建议使用共轭逆伽马分布。我之所以这样说,是因为在先验和数据冲突的情况下,先验对后验分布有无限的影响,因此共轭先验是非稳健的。这种行为就是我所说的“教条式”,而没有温和的先验信息证明。
确定稳健性的属性是先验行为和似然性的尾部行为。这里有一篇很好的文章概述了技术细节。例如,可以选择一种可能性(例如t分布),使得当观测值(即任意变大)时,就从位置参数的分析中将其丢弃(与您所用的方法大致相同)从直觉上做这样的观察)。“丢弃”的速率取决于分布的尾部有多重。
在此处可以找到一些幻灯片,其中显示了在分层建模环境中的应用程序(显示Beta 2分布的数学形式),并在此处提供了论文。
如果您不在分层建模环境中,那么我建议比较后验(或您创建的任何结果),但将Jeffreys优先用于比例参数,该参数由。可以将其创建为Beta 2密度的极限,因为其两个参数都收敛为零。作为近似值,您可以使用较小的值。但我想尝试制定出解决方案分析,如果在所有可能的(如果不是一个完整的解析解,得到解析解的进展程度,你可能可以),因为你不仅可以节省自己的一些计算时间,但你也可能会更好地了解模型中发生的事情。
另一种选择是以约束的形式指定您的先验信息(均值等于,方差等于V,IQR等于I Q R等,并由您自己指定M ,V ,I Q R的值),然后使用关于杰弗里斯(Jeffreys)的“不变测度” m (σ )= 1的最大熵分布(搜索Edwin Jaynes或Larry Bretthorst的任何作品来很好地解释什么是最大熵和什么不是最大熵)。。
MaxEnt是“劳斯莱斯”版本,而Beta 2则是“轿车”版本。原因是MaxEnt分布“假定最少”受您所施加的约束(例如,没有约束意味着您只是先获得了Jeffreys),而Beta 2分布可能包含一些“隐藏”功能,这些特征在您的特定情况下可能会或可能不会(例如,如果先验信息比数据更可靠,则Beta 2不好)。
MaxEnt分布的另一个不错的特性是,如果在数据生成机制中没有未指定的约束,则MaxEnt分布绝对是您将看到的最有可能的分布(我们所说的几率超过数十亿和数万亿)。因此,如果您看到的分布不是MaxEnt,则可能存在您未指定对实际过程进行操作的其他约束,并且观察到的值可以提供有关该约束可能是什么的线索。
Daniels的以下论文比较了差异的各种收缩先验。这些是适当的先决条件,但我不确定有多少可以称为非信息性的。但是,他还提供了非信息性先验的列表(并非全部正确)。以下是参考。
MJ Daniels(1999),《层次模型中方差的先验》,加拿大J. Stat。,卷 27号 3,第567–578页。
先验
以下是与此相关的另一篇最新论文。
A. Gelman(2006),层次模型中方差参数的先验分布,贝叶斯分析,第一卷。1号 3,第515–533页。
(问题是过时的,但问题不是)
就个人而言,我认为您的直觉是有道理的。也就是说,如果不需要数学上的共轭性,那么无论用于位置参数的分布是什么,都应该对比例参数的对数使用相同的分布。因此,您要说的是:使用普通先验的等价形式。
您实际上会使用普通先验条件作为位置参数吗?大多数人会说,除非您使方差很大,否则可能有点“过于教条”,原因是此处其他答案(无限制的影响)中说明的原因。如果您正在做经验贝叶斯,那将是一个例外。也就是说,使用您的数据来估算先验参数。
如果您想“信息不足”,则可能选择尾巴较粗的分布;明显的候选者是t分布。Gelman的最新建议似乎是在3-7的df下使用。(请注意,该链接还支持我的建议,即您希望对比例尺的日志执行与对位置相同的操作),因此可以使用log-student-t代替对数正态。为此,您可以执行以下操作:
real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.
但是,我认为,如果上面的代码对您来说太复杂了,那么您可能会遇到对数正态先验,但有两个警告。首先,使先前的差异比您对“不确定您的不确定性”的粗略猜测大几倍;您想要一个信息量少的先验,而不是信息量大的先验。其次,一旦您拟合模型,请检查参数的后中值,并确保参数的对数距离对数法线的中心不太远。“不太远”可能意味着:小于两个标准偏差,最好不大于一个SD。
对于分层模型比例参数,我最终大多使用了安德鲁·盖尔曼(Andrew Gelman)提出的使用折叠非中心t分布的建议。这对我来说相当不错。