我是贝叶斯统计的新手,最近一直在使用JAGS在不同的数据集上构建分层贝叶斯模型。尽管我对结果非常满意(与标准的glm模型相比),但我需要向非统计人员解释与标准统计模型的区别。特别是,我想说明为什么和何时HBM的性能优于简单模型。
类比很有用,尤其是说明一些关键要素的类比:
- 多层次的异质性
- 需要更多计算以适合模型
- 从相同数据中提取更多“信号”的能力
请注意,答案确实应该是对非统计人员的启发,而不是简单易懂的示例。
我是贝叶斯统计的新手,最近一直在使用JAGS在不同的数据集上构建分层贝叶斯模型。尽管我对结果非常满意(与标准的glm模型相比),但我需要向非统计人员解释与标准统计模型的区别。特别是,我想说明为什么和何时HBM的性能优于简单模型。
类比很有用,尤其是说明一些关键要素的类比:
请注意,答案确实应该是对非统计人员的启发,而不是简单易懂的示例。
Answers:
我想举例说明有关癌症发生率的模型(Johnson和Albert,1999年)。它将涉及您感兴趣的第一和第三要素。
因此,问题在于预测各个城市的癌症发病率。假设我们有各个城市人数和因癌症死亡的人数的数据。假设我们要估算癌症发生率。有多种方法可以对它们进行建模,并且正如我们看到的那样,每种方法都有问题。我们将看到启发式贝叶斯建模如何克服某些问题。
1.一种方法是单独进行估计,但是我们会遇到数据稀疏的问题,并且会像低那样低估速率。X 我θ 我Ñ 我θ 我θ 我θ 我X 我〜乙我Ñ (Ñ 我,θ 我)θ 我〜乙Ë 吨一个(Ñ (X 我| Ñ 我,θ 我)乙Ë 吨一(θ 我| η )η = (一个,
2.解决稀疏数据问题的另一种方法是对所有城市使用相同的并绑定参数,但这也是一个很强的假设。
3.因此可以做的是,所有在某种程度上都是相似的,但也有城市特定的变化。因此,可以以一种方式建模,以使所有都来自一个公共分布。假设和
完全联合分布为其中。我们需要推断
p (d ,θ ,η | Ñ )= p (η )∏ N i = 1 B i
从数据。如果将其固定为常数,则信息不会在之间流动,并且它们将有条件地独立。但是通过将视为未知数,我们允许数据较少的城市从数据较多的城市借鉴统计强度。
主要思想是为了对超参数中的不确定性建模,采用更多的贝叶斯方法并在先验值上设置先验值。在此示例中,这允许之间的影响流。
生病时,您会观察到症状,但您想要的只是诊断。如果您不是医生,我想您可以找到最适合您症状的诊断。但是,HBM Ph博士将要做的是查看您的症状,它们的相对意义,它们如何适应/联系您以前不同的健康问题,您的家人,当前的常见疾病和环境状况,您的弱点,您的力量...然后他将利用这些知识结合这些东西,以更新他对您的健康状况的猜测,并为您提供更可能的诊断。
我敢肯定,这种类比很快就会达到极限,但是我认为它可以很好地说明HBM的期望,对吗?(我没有找到更好的一个)