Questions tagged «epidemiology»

流行病学是对疾病或疾病在人群水平上的分布和传播的研究。

8
Facebook终结了吗?
最近,本文受到了很多关注(例如,《华尔街日报》的关注)。基本上,作者得出的结论是,到2017年,Facebook将失去80%的成员。 他们的主张基于SIR模型的外推,SIR模型是流行病学中经常使用的隔间模型。他们的数据来自Google搜索“ Facebook”的内容,作者使用Myspace的灭亡来验证他们的结论。 题: 作者是否犯了“相关并不意味着因果关系”的错误?该模型和逻辑可能适用于Myspace,但是对任何社交网络都有效吗? 更新:Facebook回击 与科学原则“相关等于因果关系”相一致,我们的研究明确表明普林斯顿可能有完全消失的危险。 我们真的不认为普林斯顿大学或世界的空气供应很快就会消失。我们热爱普林斯顿大学(和空气),并最后提醒我们:“并非所有研究都是平等的,而且某些分析方法会得出非常疯狂的结论。

5
了解回归-模型的作用
如果您不知道要为其获取参数的函数,那么回归模型有什么用? 我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对约1000名母亲的调查,并控制了其他因素,并使用了对数线性模型。 现在这是否意味着他们认为确定糖尿病可能性的所有因素都符合一个很好的功能(可能是指数形式),可以很好地转化为具有对数的线性模型,并且证明母乳喂养的女性是否具有统计学意义? 我肯定会丢失一些东西,但是,他们到底怎么知道这个模型的?

2
泊松回归估计二元结果的相对风险
简要总结 为什么在具有二元结果的队列研究中使用逻辑回归(具有比值比),而不是与泊松回归(具有相对风险)相比,更普遍? 背景 根据我的经验,本科生和研究生的统计和流行病学课程通常会讲逻辑回归应用于对具有二元结果的数据进行建模,风险估计值以比值比报告。 但是,泊松回归(以及相关的:拟泊松,负二项式等)也可以用于对具有二元结果的数据进行建模,并通过适当的方法(例如鲁棒的三明治方差估计器)提供有效的风险估计和置信度。例如, Greenland S.,基于模型的相对风险和其他流行病学方法在共同结局研究和病例对照研究中的估计,Am J Epidemiol。2004年8月15日; 160(4):301-5。 Zou G.,使用二进制数据进行前瞻性研究的改进的Poisson回归方法,《美国流行病学杂志》。2004 Apr 1; 159(7):702-6。 Zou GY和Donner A.,将修正的Poisson回归模型扩展到具有相关二元数据的前瞻性研究,Stat Methods Med Res。2011年11月8日。 通过泊松回归,可以报告相对风险,其中一些人认为相对风险比与比值比更容易解释,尤其是对于频繁的结局,尤其是对于没有统计学背景的个人而言。请参见张J.和于克芬,相对风险是多少?一种校正常见结局队列研究中的优势比的方法,JAMA。1998年11月18日; 280(19):1690-1。 通过阅读医学文献,在具有二元结果的队列研究中,似乎似乎更普遍的是通过逻辑回归报告比值比,而不是通过泊松回归报告相对风险。 问题 对于具有二元结果的队列研究: 是否有充分的理由报告逻辑回归的优势比,而不是泊松回归的相对风险? 如果不是,医学文献中具有相对风险的Poisson回归频率不高是否可以归因于科学家,临床医生,统计学家和流行病学家在方法论理论与实践之间的滞后? 中间统计学和流行病学课程是否应包括更多关于二元结果的泊松回归的讨论? 我是否应该鼓励学生和同事在适当的时候考虑使用泊松回归而不是逻辑回归?

2
吸烟究竟会导致多少肺癌?[关闭]
在烟草制品上,人们经常可以看到这样的统计数据:十分之九的肺癌是由吸烟引起的,但是这个数字准确吗? 我对此统计数据表示怀疑,原因有两个。 首先,如果您比较美国和挪威随时间推移的卷烟消费率,并将其与男性肺癌率进行比较,则可以构建以下图表。您可以得到美国卷烟消费数据在这里和挪威这里从和癌症的数据,这两个国家在这里。 在美国,十分可能有百分之十的肺癌很可能是由吸烟引起的,但在挪威,这却是非常令人怀疑的,因为相对很少吸烟,肺癌的发生率很高。在美国,病因(香烟)先于效应(肺癌),但在挪威,病因(香烟)似乎先于效应(肺癌)。对于挪威来说,这不能支持吸烟导致十分之九的肺癌的假设。 除了挪威的好奇心外,还有另一个问题,因为在像美国这样的国家,数十年来一直鼓励成千上万的人戒烟,肺癌发生率下降了。但是,在前苏联国家中,没有鼓励数百万人戒烟,因此,迄今为止,这些国家的人均香烟消费量一直稳定。 因此,很偶然地,我们进行了一项大规模的实验(数十亿个学科年),看看是否鼓励数十年来数十万人戒烟对肺癌发生率是否有任何影响。我想这可以说是有史以来最大的吸烟和肺癌实验。以下是美国(人口3.257亿),俄罗斯联邦(人口1.44亿)和乌克兰(人口4500万)三个国家的男性肺癌。 显然,在这些国家中,男性肺癌的发病率与美国相同,但吸烟率并未下降。 其次,在美国,根据以下国家健康调查,从不吸烟的人群中,有17.9%的肺癌发生在下面,表转载于此,其原始内容可在此处找到。 在我看来,从不吸烟的人占肺癌的17.9%,这使吸烟引起的肺癌中的九成不成立。 我猜想要计算出这个数字,您真正需要知道的是从不吸烟的成年人口中有多少,但是我发现这个数字对美国而言令人惊讶地难以捉摸。在这项研究中,我能找到的最接近的数据表明,在美国,从未吸烟者占人口的22.2%,当前吸烟者占39.4%,前吸烟者占38.5%。 但这是不对的,我认为作者已经将现在的吸烟者与从未吸烟者交换了,从未吸烟者的人数确实是39.4%,而现在吸烟者的人数实际上是22.2%。这是非常不令人满意的,但是我发现找到当前吸烟者的数字很容易,但是很难找到从未吸烟者的数字。 因此,给出了一些相关的流行病学统计资料(对于读者而言很有趣),关于为什么吸烟引起的肺癌数量可能不那么高的十分之九,我的问题如下: 根据统计数据,从未吸烟者中有17.9%的肺癌发生,从不吸烟者占人口的39.4%,实际上由吸烟引起的肺癌有多少?

2
在小样本研究中如何应对探索性数据分析和数据挖掘?
探索性数据分析(EDA)通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据的研究中,我会遇到这种情况(社会人口统计学数据,神经心理学或医学量表,例如,心理或身体机能,抑郁/焦虑水平,症状清单) )。EDA可能会突出显示一些意料之外的关系(“意料之外”,意味着它们未包含在初始分析计划中),这会转化为其他问题/假设。 与过拟合的情况一样,数据挖掘或监听确实会导致结果无法推广。但是,当有大量数据可用时,(对于研究人员或医师而言)很难假设一组有限的假设。 我想知道在小样本研究中是否有公认的方法,建议或经验法则可能有助于描述EDA。

2
什么样的统计模型或算法可以用来解决约翰·斯诺霍乱问题?
我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。 作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。

9
计数数据的时间序列,计数<20
我最近开始为结核病诊所工作。我们会定期开会,讨论我们目前正在治疗的结核病病例数,进行的检测数目等。我想开始对这些计数进行建模,以便我们不只是猜测是否有异常。不幸的是,我几乎没有时间序列方面的培训,并且我大部分时间都在接触非常连续的数据(股价)或大量计数(流感)的模型。但是我们每月处理0-18例(平均6.68,中位数7,变量12.3),分布情况如下: [图像迷失在时间的迷雾中] [被烟灰吞噬的图像] 我已经找到了一些有关此类模型的文章,但我非常感谢听到您的建议-无论是方法还是我可以用来实现这些方法的R包。 编辑: mbq的回答迫使我对我在这里要问的问题进行更仔细的思考。我对每月的工作太挂了,失去了问题的实际重点。我想知道的是:(从2008年开始)(明显可见)的下降是否反映了案件总数的下降趋势?在我看来,2001-2007年间每月的案件数量反映了一个稳定的过程;也许有些季节性,但总体稳定。从2008年至今,情况似乎正在发生变化:案件总数正在下降,尽管由于随机性和季节性,每月的案件数可能会上下波动。如何测试流程中是否存在真正的变化?如果我能确定下降,

2
调整ROC曲线分析中的协变量
这个问题是关于在存在相关量表的情况下,在多维筛查问卷中估算截止分数以预测二值终点的问题。 有人问我在设计可用于酗酒筛查的测量量表(人格特质)每个维度的临界值时,控制相关子分数的兴趣。也就是说,在这种特殊情况下,此人对调整外部协变量(预测变量)不感兴趣-这导致在经协变量调整的ROC曲线下产生(局部)面积(例如(1-2)),但实际上对其他分数没有影响来自同一份调查表,因为它们彼此相关(例如“冲动”与“寻求感觉”)。它构成了一个GLM,在左侧包含感兴趣的得分(我们寻求分值)和从同一份问卷中计算出的另一个得分,而在右侧则可能显示饮酒状态。 为了阐明(按@robin请求),假设我们有分数,例如(例如,焦虑,冲动,神经质,寻求感觉),并且我们想找到一个值(即“阳性案例”),否则为“负数”)。在设计此类临界值时,我们通常会针对其他风险因素(例如性别或年龄)进行调整(使用ROC曲线分析)。现在,由于已知SS与IMP相关联,因此如何在性别,年龄和寻求感觉(SS)上调整冲动(IMP)呢?换句话说,如果去除了年龄,性别和焦虑水平的影响,我们将获得IMP的临界值。x j t j x j &gt; t jj = 4Ĵ=4j=4XĴXĴx_jŤĴŤĴt_jXĴ&gt; 吨ĴXĴ&gt;ŤĴx_j>t_j 除了说分界必须尽可能简单之外,我的回应是 关于协变量,我建议评估有无调整后的AUC,以查看预测性能是否提高。在这里,您的协变量仅仅是从同一度量工具定义的其他子评分,而我从未遇到过这种情况(通常,我会根据已知的风险因素进行调整,例如年龄或性别)。[...]此外,由于您对预后问题(即问卷的筛查功效)感兴趣,因此您可能还对估计阳性预测值(PPV,测试结果呈阳性并被正确分类的患者的概率)感兴趣您可以根据调查表上的子分数将主题分类为“阳性”或“阴性”。请注意, 您是否对这种特殊情况有更全面的了解,并在可能的情况下链接到相关论文? 参考文献 Janes,H和Pepe,MS(2008)。在诊断,筛选或预后标志物研究中调整协变量:新环境中的旧观念。美国流行病学杂志 168(1):89-97。 Janes,H和Pepe,MS(2008)。ROC分析中的调节协变量。华盛顿大学生物统计学工作论文系列,论文322。
20 epidemiology  roc 

5
数据清理会使统计分析的结果恶化吗?
在流行期间,由于病毒传播(例如2002年美国的西尼罗河病毒),人民抵抗力下降,食物或水的污染减少,蚊子。这些流行病将以每1至5年发生一次的异常值出现。通过消除这些异常值,我们将消除流行病的证据,这些证据构成了预测和疾病理解的重要组成部分。 在处理由流行病引起的异常值时是否需要清理数据? 是要改善结果还是使统计分析结果恶化?

4
在公共卫生政策研究中哪些案例研究滥用了不可靠/混杂/无效的研究或模型?
我正在起草有关当前混淆数据的当前公共卫生问题的文献综述: 在公共卫生/流行病学教育中使用哪些常见的历史案例研究,而在公共卫生政策和立法中有意或错误地使用了无效或混杂的关系或推论? 1960年代的汽车死亡人数激增以及随后由政府主导的基于证据的研究,该研究确定了安全带并最终要求安全气囊是法律所必需的,这是HOW公共卫生政策应由统计学上有效的推论和模型所驱动的一个很好的例子。 我更多地在寻找相反类型的案例(科学性很差,匆忙制定政策)。但是,如果没有别的什么,我想学习更多类似于先前为成功实现公共卫生利益而进行的有力研究的案例的案例。 我想以这些为例来说明基于证据的统计公共卫生研究对制定政策的重要性。

6
确定状况“ B”对治疗“ A”的益处时,有效性和功效之间有何区别?
这个问题的背景是在健康框架内,即在疾病治疗中寻找一种或多种疗法。看起来,即使是受人尊敬的研究人员也可以将术语功效和效力混淆使用,这两个术语可以互换使用。 如何以一种有助于消除困惑的方式来考虑功效与功效? 哪种类型的研究设计最适合确定两种类型的结果? 有什么权威的期刊出版物,书籍或网络词典对我有帮助吗?

2
用简单的英语解释模型调整
阅读有关统计分析的方法和结果,尤其是流行病学方面的信息时,我经常听到有关模型调整或控制的信息。 您如何向非统计人员解释其目的?控制某些变量后,如何解释结果? 只需在Stata或R中进行少量漫游,或在线指向一个指针,便会成为真正的瑰宝。

3
用于多层建模的说明性数据集和分析
我最近参加了有关多级建模的入门课程。我们使用的大多数数据集和示例均来自社会科学。我刚刚在生物统计学部门进行了为期2周的实习,他们希望我在医院之间以及5年以上的高死亡率的紧急情况下,开展有关患者结局水平变化的项目,以应对这种情况。时间跨度。我将从下周开始实习,我希望能找到一本书或在线资源,其中已经进行了类似的分析(最好是使用R,Stata或MLwiN),最好是它们可以为读者提供数据集。任何链接将是最欢迎的。 编辑:我将使用详细记录患者住院治疗所有已记录方面的数据集。感兴趣的主要结果是入院后30天内死亡。

2
阳性和阴性预测值的统计检验
我读了一篇论文,看到一张桌子,上面有PPV(正预测值)和NPV(负预测值)之间的比较。他们为他们做了某种统计检验,这是表格的示意图: PPV NPV p-value 65.9 100 &lt; 0.00001 ... 每行都引用一个特定的列联表。 他们做了什么样的假设检验?谢谢!

7
敏感性或特异性是患病率的函数吗?
标准教学说,敏感性和特异性是测试的属性,与患病率无关。但这不只是一个假设吗? 哈里森的内科学原理第19版说 长期以来,人们一直认为敏感性和特异性是测试准确性与患病率无关的参数,许多文献仍在发表这一声明。然而,这种统计学上有用的假设在临床上是简单的。...住院患者的测试敏感性可能更高,而门诊患者的测试特异性更高。 (住院患者的患病率通常高于门诊患者) 这些参数之间是否存在数学或近似图形关系? 即使这个链接也称其为“简化”。为什么? 编辑:我知道如何定义灵敏度。正如答案中所提到的,没有涉及流行的术语。我本人一直坚持认为,这些是测试的属性,不受所使用的总体影响,直到我遇到此声明,因此才提出问题。但我认为,造成这种混乱的原因不是由于定义,而是由于这些值的实际计算。特异性和敏感性是使用2x2表格计算的,这里参考人群的普遍性重要吗?这就是他们所指的吗?如果可以,功能是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.