什么样的统计模型或算法可以用来解决约翰·斯诺霍乱问题?


23

我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。

作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。


2
克里格模型用于地理预测。那可能是一个起点。要包含时间信息,您需要更进一步,并使用时空模型(尽管我没有使用这些模型)。
Great38 19:39

4
@Great Kriging很难在这里应用:它既不是要估计极值,也不是很适合沿道路行走时间的几何形状,也不是很适合控制人口密度或人口密度等重要协变量。建筑物中的工人数量。
ub

这个R包可能​​是github.com/lindbrook/cholera感兴趣的。
David C. Norris

Answers:


25

我并不想给出完整或权威的答案,而只是为了激发想法,我将汇报我十年前在空间统计课程中为实验室练习所做的快速分析。目的是要了解与使用欧几里得距离相比,准确计算可能的行进路径(徒步)对一个相对简单的探索性方法(内核密度估计)有什么影响。相对于除雪手柄的泵,密度的一个或多个峰值在哪里?

我使用Snow的地图(正确地地理定位)的高分辨率栅格表示形式(2946行乘3160列),对地图上显示的数百个黑色小棺材中的每一个进行了数字化处理(在309个地址中找到558个),将它们分别分配给了对应于其地址的街道边缘,并按地址汇总为每个位置的计数。

输入数据点图

经过一些图像处理以识别街道和小巷后,我进行了仅限于这些区域的简单高斯扩散(使用GIS中的重复聚焦方式)。这就是KDE。

结果是不言而喻的-它几乎不需要传说就可以解释它。(地图显示了许多其他泵,但它们都位于该视图之外,该视图重点关注密度最高的区域。)

雪的地图显示密度和颜色。


哇。总结一下 1.线性化行进路径,2.在一个维度上执行平滑,3.在二维上扩展平滑,4.跨路径行程平均kde?
cylondude

1
平滑是在2D模式下进行的,但仅限于彩色区域。类似于您的描述,还有其他方法可以执行此操作。但是,无需对“路径旅行”进行平均(无论可能是多少)。该地图之所以有趣,部分原因是它共享一维和二维几何的属性。
ub

对于街道上的每个点A,计算地址位置中彼此到达点B的步数。将该步数插入高斯密度,然后将该值乘以B处的死亡数。将所有这些乘积(即在所有地址点B上)相加,得出A点的内核密度。对所有A点都这样做在街上。这就是我们在地图上每个点看到的密度。是?
Hatshepsut

2

2
@帽子限制在道路和人行道上的情况下,高斯并不是具有单位积分的情况!因此,它被截断,必须重新规范化。
ub

19

在[1,§3.2]中,大卫·弗里德曼David Freedman)对您的问题提出了一个基本否定的答案。也就是说,没有(仅仅)统计模型或算法可以解决约翰·斯诺的问题。斯诺的问题是要提出一个批判性论据,以支持他的霍乱是一种水传播传染病的理论,这与当时流行的mi气理论相违背。(在[1]中名为“统计模型和鞋革”的第3章,也可以在此处以以前发布的形式[2]获得。)

在这短短的几页中[1,pp.47–53],其中大部分是约翰·斯诺本人的引文,弗里德曼认为:“斯诺在1853–54年的实际举动比[博德街泵]。” 至于编组统计证据(此外还讨论了索引案例识别等其他初步知识),Snow 利用自然变化来实现真正出色的准实验。

事实证明,在较早的时候,伦敦的供水公司之间存在激烈的竞争,这导致了供水的空间混合(用斯诺的话说)是“最亲密的”。

每个公司的管道沿着大街走到几乎所有的法院和小巷。根据自来水公司竞争时所有者或占用者的决定,一间公司提供的房屋数量很少,另一家公司提供的房屋数量很少。

...

由于这两家自来水公司的房屋,接受住房的人或周围的人的身体条件没有任何区别,很明显,没有可以设计出能够更彻底地测试供水系统的实验。供水对霍乱进展的影响远不止于此,在这种情况下,观察员已经做好了准备。

约翰·斯诺(John Snow)

约翰·斯诺(John Snow)在这项准实验中利用的另一项至关重要的“自然变化”是,一家自来水公司的进水口位于污水排放下游的泰晤士河上,而另一家则需要数年才能将进水口重新安置到上游。我会让你猜猜约翰·斯诺的数据表是哪一个!

                     | 数量 霍乱| 每人死亡
公司简介 房屋| 死亡 10,000所房屋
-------------------------------------------------- --------
南华克和沃克斯豪尔| 40,046 | 1263 | 315
兰贝斯| 26,107 | 98 | 37
伦敦其他地方| 256,423 | 1422 | 59

正如弗里德曼(Freedman)枯萎地指出的那样,

作为一项统计技术,[上表]绝对不算什么。但是它讲述的故事很有说服力。论证之力来自于先验推理的清晰性,许多不同证据的结合以及Snow愿意使用的鞋革数量来获取数据。[1,第51页]

Snow在时间维度上发生了另一点自然变化:上述进水口重新布置发生两个流行病之间,这使Snow可以比较添加或不添加污水的同一家公司的用水。(感谢[1]的作者之一Philip B. Stark 通过Twitter获得此信息。请参阅他的在线讲座。)


如此答案所讨论的,这件事还提供了一个关于演绎主义归纳主义对比的有益研究。

  1. Freedman D,Collier D,Sekhon JS,Stark PB。统计模型和因果推论:与社会科学的对话。剑桥; 纽约:剑桥大学出版社;2010。

  2. 弗里德曼DA。统计模型和鞋革。社会学方法论。1991; 21:291-313。doi:10.2307 / 270939。全文


1
+1指出仅识别震中将不足以解决所述的“约翰·斯诺的问题”。正如大卫指出的那样,当时的as气理论就是这样一种流行的理论。为了伪造the气理论,人们必须证明地理位置不会随着靠近河流而增加。解决此问题的现代方法可能已经利用了克里金法。
AdamO '17

谢谢@AdamO; 但是我不知道克里格在这种情况下如何适应“亲密”的空间混合,这几乎是对应用插值技术所必需的连续性的冒犯(例如,我理解克里格就是这样)。
大卫·诺里斯

也许我误会了斯诺的话:我的假设是“ [水泵供应源的紧密混合””是指一种几乎完美的街区设计,其中,与河的距离分层,每个街区的同心层至少有几个供应商A,B,C的泵...这与支持受污染的水导致霍乱的理论有关。克里格(Kriging)会通过表明与河流的距离与霍乱的发生率增加无关来拒绝黄褐斑假说。人们在水泵处浇水可以支持这一点:as疮不会通过管道传播。
AdamO '17

2
@AdamO实际上,威廉·法尔(William Farr)研究了霍乱的死亡率(自1849年起),并将其与泰晤士河上空的海拔高度进行了比较。这些变量之间的对应关系惊人,几乎完全符合as气理论的预测。参见公元Langmuir。细菌学评论25,174,1961bmj.com/content/323​​/7327/1469.full#B4)。本文指出,即使在斯诺博士于1858年去世时,他的理论也“未被官方圈子接受”。
ub

1
非常感谢您的引用,@ whuber。通过策展,我注意到Langmuir的文章是开放获取
David C. Norris
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.