我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。
作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。
我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。
作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。
Answers:
我并不想给出完整或权威的答案,而只是为了激发想法,我将汇报我十年前在空间统计课程中为实验室练习所做的快速分析。目的是要了解与使用欧几里得距离相比,准确计算可能的行进路径(徒步)对一个相对简单的探索性方法(内核密度估计)有什么影响。相对于除雪手柄的泵,密度的一个或多个峰值在哪里?
我使用Snow的地图(正确地地理定位)的高分辨率栅格表示形式(2946行乘3160列),对地图上显示的数百个黑色小棺材中的每一个进行了数字化处理(在309个地址中找到558个),将它们分别分配给了对应于其地址的街道边缘,并按地址汇总为每个位置的计数。
经过一些图像处理以识别街道和小巷后,我进行了仅限于这些区域的简单高斯扩散(使用GIS中的重复聚焦方式)。这就是KDE。
结果是不言而喻的-它几乎不需要传说就可以解释它。(地图显示了许多其他泵,但它们都位于该视图之外,该视图重点关注密度最高的区域。)
在[1,§3.2]中,大卫·弗里德曼(David Freedman)对您的问题提出了一个基本否定的答案。也就是说,没有(仅仅)统计模型或算法可以解决约翰·斯诺的问题。斯诺的问题是要提出一个批判性论据,以支持他的霍乱是一种水传播传染病的理论,这与当时流行的mi气理论相违背。(在[1]中名为“统计模型和鞋革”的第3章,也可以在此处以以前发布的形式[2]获得。)
在这短短的几页中[1,pp.47–53],其中大部分是约翰·斯诺本人的引文,弗里德曼认为:“斯诺在1853–54年的实际举动比[博德街泵]。” 至于编组统计证据(此外还讨论了索引案例识别等其他初步知识),Snow 利用自然变化来实现真正出色的准实验。
事实证明,在较早的时候,伦敦的供水公司之间存在激烈的竞争,这导致了供水的空间混合(用斯诺的话说)是“最亲密的”。
每个公司的管道沿着大街走到几乎所有的法院和小巷。根据自来水公司竞争时所有者或占用者的决定,一间公司提供的房屋数量很少,另一家公司提供的房屋数量很少。
...
由于这两家自来水公司的房屋,接受住房的人或周围的人的身体条件没有任何区别,很明显,没有可以设计出能够更彻底地测试供水系统的实验。供水对霍乱进展的影响远不止于此,在这种情况下,观察员已经做好了准备。
约翰·斯诺(John Snow)
约翰·斯诺(John Snow)在这项准实验中利用的另一项至关重要的“自然变化”是,一家自来水公司的进水口位于污水排放口下游的泰晤士河上,而另一家则需要数年才能将进水口重新安置到上游。我会让你猜猜约翰·斯诺的数据表是哪一个!
| 数量 霍乱| 每人死亡 公司简介 房屋| 死亡 10,000所房屋 -------------------------------------------------- -------- 南华克和沃克斯豪尔| 40,046 | 1263 | 315 兰贝斯| 26,107 | 98 | 37 伦敦其他地方| 256,423 | 1422 | 59
正如弗里德曼(Freedman)枯萎地指出的那样,
作为一项统计技术,[上表]绝对不算什么。但是它讲述的故事很有说服力。论证之力来自于先验推理的清晰性,许多不同证据的结合以及Snow愿意使用的鞋革数量来获取数据。[1,第51页]
Snow在时间维度上发生了另一点自然变化:上述进水口重新布置发生在两个流行病之间,这使Snow可以比较添加或不添加污水的同一家公司的用水。(感谢[1]的作者之一Philip B. Stark 通过Twitter获得此信息。请参阅他的在线讲座。)
如此答案所讨论的,这件事还提供了一个关于演绎主义与归纳主义对比的有益研究。
Freedman D,Collier D,Sekhon JS,Stark PB。统计模型和因果推论:与社会科学的对话。剑桥; 纽约:剑桥大学出版社;2010。
弗里德曼DA。统计模型和鞋革。社会学方法论。1991; 21:291-313。doi:10.2307 / 270939。全文