可视化推断工作流程


9

我为公共卫生部门提供统计支持。如您所想,我们会定期整理很多地图。对我来说,地图只是另一种数据可视化方式,对了解数据,生成和检查假设等很有用。但是,我们并不经常进行实际的建模和假设测试

您/您的组织如何做到这一点?包含推理的工作流是什么样的?谁参与其中?您使用什么工具?如果您愿意的话,理想情况下会是什么样?

谢谢!

编辑

明确地说,我对从空间数据到对世界动态的假设进行正式的统计检验的不同策略感到好奇。例如,假设我正试图针对一个教育运动来增加结核病检测。我(个人)将针对感兴趣的协变量(例如,中位数收入或外国出生居民的百分比)来规划结核病的病例,并尝试查看是否存在任何模式。

我可能会或可能不会找到任何东西;但我最终将建立一个模型来估计这些协变量与人口统计数据之间的关联。这是至关重要的一步,因为人类在寻找不存在的模式或寻找无趣的模式方面表现出色。我知道如何独自执行此操作,但我对不同组织如何将其制度化(如果有的话)感到好奇。


好问题!
ub

您是说需要工作流程,以便在某些疾病爆发且疫苗供应有限的情况下,需要能够证明您正在最佳地分配疫苗?
Kirk Kuykendall

概括地说,我只是对人们如何将统计推断纳入其映射过程感兴趣。您所描述的肯定是一种可能的情况,但还有很多其他情况,而且我对流行病学的反应甚至不特别感兴趣。
马特·帕克

Answers:


2

非常有趣的问题!

首先,您的问题涉及我所说的“数据挖掘”,我认为它值得明确地重提该问题,因为这里的某些人可能没有得到它:使用任何数据集(不必是空间数据)来获得统计上有效的关系是约定必须等于或高于95%的概率。但是,如果您进行20次测试,则您获得的“统计有效”结果中至少有一个是由于纯粹的机会而产生的。因此,不正确的做法是使用数据集(在GIS中将其映射出来)以可视化变量之间的许多可能关系,找到一个有趣的变量并插入统计信息并引用结果,就好像这是唯一的测试做过。您仍然可以使用结果,但必须考虑已完成的测试数量。

那是你在开车吗?

您的问题似乎是在询问人们如何形式化避免此问题。我的回答是,您提到的“根本不”选项很常见。根据我的经验,医学统计学家(例如我的女友)对这种过程的严格性标准要比其他领域高得多,我怀疑在公共卫生之外进行的各种数据映射都没有经过正式的考虑统计公式无法正确理解过程而盲目应用的问题。我想到一个地质例子:

我读了一篇同行评审的论文,作者研究了井眼产量(可泵入的水量)与非洲的地质和空间影响如何相关,例如在撞击基岩之前挖出的砾石层的厚度。这个想法是为了帮助钻孔钻工,以便他们可以将目标对准钻孔的最佳位置。作者公然地结合了各种变量来挖掘数据,以查看哪些变量具有95%的置信度,并且(我认为)没有评论者对结果的有效性提出质疑。因此,他们的结论是完全不可信的。

希望有兴趣


您能否再解释一下为什么您描述的论文不可信?对我来说,为什么如此,这并不明显。如果这种关系在统计上是存在的,那么您用来识别它的“心理模型”是否重要?我知道它没有解释机制,但这是一个单独的问题。
djq 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.