如何总结医疗对象的合理间隔


21

使用Stan和frontend软件包,rstanarm或者brms像以前一样,我可以像以前一样轻松地以贝叶斯方式分析数据lme。虽然我桌上有Kruschke-Gelman-Wagenmakers等的大部分书籍和文章,但这些内容并没有告诉我如何总结医学观众的结果,这些结果困扰于贝叶斯愤怒的Skylla和医学评论家的Charybdis( “我们需要意义,而不是那些分散的东西”)。

例如:胃频率(1 / min)分为三组;健康对照是参考。每个参与者都有几种度量,因此常客我使用以下混合模型lme

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

略有修改的结果:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

为简单起见,我将使用2 * std错误作为95%CI。

在常客的背景下,我将其总结为:

  • 在对照组中,估计频率为2.7 / min(也许在此处添加CI,但由于绝对和差异CI造成的混淆,我有时会避免这样做)。
  • 在no_symptoms组中,频率比对照组高0.4 / min,CI(0.11至0.59)/ min,p = 0.006。
  • 在with_symptoms组中,频率比对照组高0.2 / min,CI(-0.04至0.4)/ min,p = 0.11。

这是关于医学出版物的最大可接受复杂度,审稿人可能会要求我在第二种情况下添加“不重要”。

stan_lmer与默认优先级相同。

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

其中CredI是90%可信区间(请参阅rstanarm插图,为什么将90%用作默认值。)

问题:

  • 怎么把上面的总结翻译成贝叶斯世界?
  • 在何种程度上需要事先讨论?我很确定,当我提到先验时,论文将以通常的“主观假设”返回。或至少“请不要进行技术讨论”。但是所有贝叶斯当局都要求解释仅在先验条件下有效。
  • 在不背离贝叶斯概念的情况下,如何在表述上提供一些“意义”替代?诸如“令人难以置信的不同”(uuuh ...)或几乎令人信服的不同(buoha ...,听起来像“意义重大”)之类的东西。

乔纳·加布里(Jonah Gabry)和本·古德里奇(Ben Goodrich)(2016)。rstanarm:通过Stan进行的贝叶斯应用回归建模。R软件包版本2.9.0-3。 https://CRAN.R-project.org/package=rstanarm

斯坦发展团队(2015)。Stan:2.8.0版的C ++概率和抽样库。网址http://mc-stan.org/

Paul-Christian Buerkner(2016)。brms:使用Stan的贝叶斯回归模型。R软件包版本0.8.0。https://CRAN.R-project.org/package=brms

Pinheiro J,Bates D,DebRoy S,Sarkar D和R Core Team(2016)。nlme:线性和非线性混合效应模型。R软件包版本3.1-124,http://CRAN.R-project.org/package=nlme>。


1
我没有医学期刊的审阅者/编辑的经验,但是也许您可以尝试说拦截率为零的可能性为零,“无症状”虚拟变量的系数为零的可能性为零,而概率为5% “带有症状”虚拟变量的系数为负。您可以通过这样做更精确地量化大约5%mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0)
本古德里奇

我们想到了这一点,5%的人听起来还不错;研究人员会将其翻译为“重要性”,但是由于他们通常会误解重要性,因此通过双重否定是正确的。另一方面,“零概率”是一个杀手::您会接受吗?也许<1 / Reff(p <0.001)是一个近似值?但是再说一遍:当我写p <xxx时,我就进入了意义世界。
Dieter Menne

将Reff更正为以上n_eff。
Dieter Menne

1
我个人不会将尾部概率称为“ n_eff机会小于1”,因为n_eff与估计均值的精度有关。也许您可以将链条运行足够长的时间,以获得1的系数的负吸引group_nosymptoms,然后说它为负的概率为1 / draws。但是对于拦截而言,对于这些数据,链永远都不会徘徊在负数范围内,所以我想您可以说概率小于1 / draws
本古德里奇

对于域专家而不是统计专家审阅者,我在其中包含一些很好的建议:stats.stackexchange.com/questions/148649/…。我们使用P <最小值(所有参数的n_eff),其为保守的上界当p = 0
斯泰恩

Answers:


16

快速思考:

1)关键问题是您要尝试为受众回答哪些应用问题,因为这决定了您需要从统计分析中获取哪些信息。在这种情况下,在我看来,您想估计组之间差异的大小(或者,如果这是您的听众更熟悉的度量,则可能是组比率的大小)。您在问题中提出的分析并不能直接提供差异的大小。但是直接从贝叶斯分析中得到想要的是很简单的:您想要差异(或比率)的后验分布。然后,从差(或比率)的后验分布中,您可以做出如下直接概率陈述:

“最可靠的95%差异介于[低95%HDI限制]和[高95%HDI限制]之间”(此处,我使用的是95%最高密度区间[HDI]作为可靠区间,因为定义最高密度参数值,它们被掩盖为“最可信”)

参加医学杂志的听众会直观,正确地理解该陈述,因为听众通常认为这是常客的置信区间的含义(即使那不是常客的置信区间的含义)。

您如何从Stan或JAGS获得差异(或比率)?仅对完整的MCMC链进行后处理。在链的每个步骤中,计算相关的差异(或比率),然后检查差异(或比率)的后验分布。在DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/中给出了示例,通常在图7.9(p。177)中显示MCMC,在图8.6(p。211)中显示JAGS,在16.3(p (468)等!

2)如果传统上您不得不就零差是否被拒绝做出陈述,则有两个贝叶斯选项。

2A)一种选择是针对接近零的区间及其与HDI的关系做出概率陈述。为此,您将实际等效区域(ROPE)设置为零附近,这仅仅是适合您所应用领域的决策阈值-差异有多大小?例如,在临床非劣效性测试中通常会设置此类边界。如果您的字段中具有“效应大小”度量,则可能会有“小”效应大小的约定,而ROPE限制可能是小效应的一半。然后,您可以做出直接的概率陈述,例如:

“差异的后验分布中只有1.2%实际上等于零”

“最可信的95%差异实际上几乎不等于零(即95%的HDI和ROPE不重叠),因此我们拒绝零。” (请注意,后验分布的概率陈述与基于该陈述的后续决策之间的区别)

如果实际可信度的95%都几乎等于零,那么出于实际目的,您也可以接受零差。

2B)第二种贝叶斯选择是贝叶斯零假设检验。(请注意,以上方法不是贝叶斯零假设检验对假设差异仅为零的先验分布与假定差异可能是某种可能性范围的替代先验分布进行了贝叶斯模型比较。这种模型比较的结果(通常)在很大程度上取决于替代分配的特定选择,因此必须对选择替代先验进行仔细的论证。最好对空值和替代值至少使用轻度通知的先验,以便模型比较真正有意义。请注意,模型比较提供的信息不同于估计组之间差异的信息,因为模型比较解决的是一个不同的问题。因此,即使进行模型比较,

可能有一些方法可以从Stan / JAGS / MCMC输出中进行贝叶斯原假设检验,但是在这种情况下我不知道。例如,可以尝试对贝叶斯因子进行Savage-Dickey近似,但这将依赖于了解差异的先验密度,这将需要进行数学分析或对先验进行一些其他的MCMC近似。

在Ch.1中讨论了两种确定空值的方法。DBDA2E中的第12条https://sites.google.com/site/doingbayesiandataanalysis/。但是,我真的不希望有关“评估空值的正确方法”的辩论为这次讨论所困扰。它们只是不同,它们提供不同的信息。我的答复的重点是上面的第一点:查看组之间差异的后验分布。


3
欢迎来到我们的网站!能够加入我们的社区真是太好了!
蒂姆

如果您想将您的帐户与此stats.stackexchange.com/users/16592合并(看起来也属于您),则可以通过stats.stackexchange.com/contact自动进行合并
变形虫说莫妮卡

您可以使用brms进行此处描述的假设检验。参见:github.com/paul-buerkner/brms
bjw

3

按照SO礼节,应该将其写为@John K. Kruschke的注释,但是较长的注释很难构成。抱歉。

  • @John K. Kruschke写道:仅通过对完整的MCMC链进行后处理即可。

lower_CredIupper_CredI在原岗位被计算为你的全部MCMC链中提到,并且仅略有重新格式化为更好的比较lme输出。尽管您赞成HDI,但这些都是简单的分位数;在此示例中,对称后部并没有太大区别。

  • 绳索和效果大小

我已经看到向伦理委员会的申请是在没有说明有关影响大小的假设的情况下计算统计功效的。即使对于无法定义“临床相关效应”的情况,也很难向医学研究人员解释这一概念。对于非自卑性试验来说,这要容易一些,但这些并不是研究的常客。

因此,我非常肯定引入ROPES是不会被接受的-另一个假设是,人们不能记住一个以上的数字。贝叶斯因子可能会起作用,因为以前只有一个数字像p值一样可带回家。

  • 先验

Stan团队的@John K. Kruschke和@Ben Goodrich都没有提到先验,这让我感到惊讶。关于该主题的大多数论文都要求在介绍结果时详细讨论先前的敏感性。

如果在下一版的书中(希望与Stan一起使用),可以为选定的示例添加方框“如何用100个单词发布(在非统计论文中)”(方框)。当我按单词阅读您的第23.1章时,一份典型的医学研究论文将长达100页,并且包含数字。


*重点是查看差异的后验分布(组间,组间组合)。这就是需要对MCMC链进行后处理的条件。
约翰·克鲁克

* ROPE:您“非常确定ROPE将不被接受”,并且“很难向医学研究人员解释这一概念”。我不认为贝叶斯因素如何更容易解释或接受,因为贝叶斯因素需要更加详尽的解释和某些BF阈值的合理性来决定!在我看来,您已经假设您的听众在一个常客制框架中永久僵化;如果是这种情况,则只需使用常客统计或将您的工作提交给开明的杂志即可。
约翰·K·克鲁施

*您极度夸大了第23.1节的建议,实际上可以用少量的文字简要地解决这些建议,尤其是对于此处使用的简单模型而言。继续在下
一条

1
(i)激发贝叶斯的使用-它为您提供丰富的后验分布。(ii)解释模型及其参数,在这种情况下这很容易。(iii)证明先验的合理性-在这种情况下再说一次,这只是微不足道的,因为您使用的扩散先验对后验基本上没有影响。(但是,如果您使用贝叶斯因子,那么先验是至关重要的,那么就不行了。)(iv)报告MCMC链的平滑度,很容易地说,对于所有参数和差异,ESS约为10,000。继续在下
一条

1
(v)解释后验:对于每个感兴趣的差异,只需说明后验及其95%HDI的集中趋势(例如模式)。它不像一条推文那么短,但是只有几段。
John K. Kruschke '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.