我想找到一些“现实世界的例子”来教授贝叶斯统计。贝叶斯统计允许人们将先验知识正式纳入分析。我想给学生一些简单的现实世界中的研究人员实例,这些研究人员将先验知识整合到他们的分析中,以便学生可以更好地理解为什么首先要使用贝叶斯统计的动机。
您是否知道任何简单的现实世界示例,例如估算总体均值,比例,回归等,研究人员正式将先前的信息纳入其中?我意识到贝叶斯主义者也可以使用“非信息”先验,但是我对使用信息先验(即真实先验信息)的真实示例特别感兴趣。
我想找到一些“现实世界的例子”来教授贝叶斯统计。贝叶斯统计允许人们将先验知识正式纳入分析。我想给学生一些简单的现实世界中的研究人员实例,这些研究人员将先验知识整合到他们的分析中,以便学生可以更好地理解为什么首先要使用贝叶斯统计的动机。
您是否知道任何简单的现实世界示例,例如估算总体均值,比例,回归等,研究人员正式将先前的信息纳入其中?我意识到贝叶斯主义者也可以使用“非信息”先验,但是我对使用信息先验(即真实先验信息)的真实示例特别感兴趣。
Answers:
贝叶斯搜索理论是贝叶斯统计在现实世界中一个有趣的应用,它已被多次用于搜索海上丢失的船只。首先,将地图分为正方形。根据最后的已知位置,前进方向,时间丢失,海流等,每个方格都被分配一个包含丢失船只的先验概率。此外,根据实际情况,还为每个方格分配了找到该船只的条件概率诸如水深之类的东西。结合这些分布,可以对产生正结果的可能性最高的地图正方形进行优先级排序-它不一定是该船最可能出现的位置,而是实际找到该船的最可能出现的位置。
我认为,如果使用传统的解释示例,则从序列号估算产量或人口规模很有趣。在这里,您尝试最大的离散均匀分布。根据您对先验的选择,最大似然和贝叶斯估计将以非常透明的方式有所不同。
也许最著名的例子是根据第二次世界大战期间德国坦克的编号序列和制造商的代码(在Ruggles和Brodie,1947年)在常客制下估算出德国的坦克的生产率。(Downey,2013)从贝叶斯角度进行了另一种分析,并提供了有益的先验信息;(Höhleand Held,2004)则进行了不正确的无信息先验信息分析。(Höhleand Held,2004)的著作也包含了更多关于文献中先前处理方法的参考,并且在该站点上也对此问题进行了更多讨论。
资料来源:
第三章,唐尼,艾伦。Think Bayes:Python中的贝叶斯统计。“ O'Reilly Media,Inc。”,2013年。
Ruggles,R .;Brodie,H.(1947)。“第二次世界大战中经济情报的经验方法”。美国统计协会杂志。42(237):72。
Höhle,Michael和Leonhard Held。贝叶斯估计的人口规模。第499号。讨论文件// Sonderforschungsbereich 386 derLudwig-Maximilians-Universität慕尼黑,2006年。
这是根据正常连续数据估算均值的示例。不过,在直接研究示例之前,我想回顾一下Normal-Normal Bayesian数据模型的一些数学运算。
考虑由表示的n个连续值的随机样本。。。,y n。在这里,向量Ý = (Ý 1,。。。,ÿ Ñ )Ť表示所收集的数据。具有已知方差和独立且均等分布(iid)样本的正态数据的概率模型为
或更像贝叶斯写的那样,
其中 ; τ被称为精度
与此表示法,用于密度然后
古典统计(即最大似然)给我们的估计值θ = ˉ ÿ
从贝叶斯角度看,我们将最大似然性与先验信息相加。该正态数据模型的先验选择是另一个正态分布。正态分布与正态分布共轭。
从该正态-正态(经过大量代数运算)数据模型获得的后验分布是另一个正态分布。
后精度是和平均之间的加权平均一个和ˉ ÿ,b。
这种贝叶斯方法的有用性来自您获得分布的事实。y而不是估计值,因为θ被视为随机变量而不是固定(未知)值。另外,您在此模型中对θ的估计是经验均值和先验信息之间的加权平均值。
也就是说,您现在可以使用任何普通数据教科书示例进行说明。我将使用airquality
R中的数据集。考虑估计平均风速(MPH)的问题。
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
在此分析中,研究人员(您)可以说,给定数据+先验信息,即使用第50个百分位数,您对平均风的估计速度应为10.00324,而不是简单地使用数据中的平均值。您还可以获得完整的分布,可以使用2.5和97.5分位数从中提取95%的可信区间。
我在下面提供了两个参考资料,强烈建议阅读Casella的短文。它专门针对经验贝叶斯方法,但解释了法线模型的一般贝叶斯方法。
参考文献:
卡塞拉,G。(1985)。经验贝叶斯数据分析简介。美国统计学家,39(2),83-87。
Gelman,A.(2004年)。贝叶斯数据分析(第二版,统计科学课本)。佛罗里达州博卡拉顿:Chapman&Hall / CRC。