两种分布的纵向比较


10

我有六个月间隔四次对2500人进行血液测试的测试结果。结果主要包括两种免疫反应指标:一种在存在某些结核病抗原的情况下进行,另一种在不存在的情况下进行。目前,每项测试都会根据抗原反应和无反应之间的差异来评估阳性或阴性(其想法是,如果您的免疫系统对TB抗原有反应,您可能会在某个时候暴露于细菌本身)。从本质上讲,该测试假设未暴露个体的零和结核病反应分布应基本相同,而患有结核病的人的结核病反应将来自不同的分布(较高值)。 警告:响应非常非常不正常,并且在自然地板和工具截断的天花板上都出现了值聚集。

但是,在这种纵向情况下,我们似乎很清楚地看到,由于抗原和无应答的波动(通常很小),我们会得到“假阳性”(我担心潜伏性结核没有实际的金标准)。尽管在某些情况下可能很难避免这种情况(您可能只有一次机会对某人进行测试),但在许多情况下,每年大约需要对人们进行结核病常规检测-在美国,这对于医护人员来说很常见,军队,无家可归者住在庇护所等。忽略先前的测试结果似乎很可耻,因为现有标准恰好是横截面的。

认为我想做的是我粗略地将其视为纵向混合分析。就像横截面标准一样,我希望能够估计从同一分布中得出个体的TB和无应答的概率-但要使该估计值包含先前的测试结果以及来自样本的信息整体(例如,我是否可以使用个体内变异的样本范围分布来改善对特定个体零或TB分布的估计?)。当然,估计的概率将需要能够随时间变化,以考虑新感染的可能性。

我已经全神贯注地试图以不同寻常的方式思考这个问题,但是我觉得这种概念化与我将要提出的任何想法一样好。如果没有任何意义,请随时进行澄清。如果我对情况的理解似乎不对,请随时告诉我。非常感谢你的帮助。

针对Srikant: 这是使用两个连续(但非正常且被截断)的测试结果进行潜在分类(是否感染TB)的情况。现在,该分类使用截止值完成(简化形式为TB-nil> .35->正数)。测试结果显示为(零,TB,结果),基本原型*为:

可能的负数:(0.06,0.15,-)(0.24,0.23,-)(0.09,0.11,-)(0.16,0.15,-)
可能的正数:(0.05,3.75,+)(0.05,1.56,+)(0.06 ,5.02,+)(
0.08,4.43 ,+)摇摆器:(0.05,0.29,-)(0.09,0.68 ,+)(0.08,0.31,-)(0.07,0.28,-)

Wobbler的第二项测试的阳性结果显然是一种畸变,但您将如何建模?我的思路之一是使用重复测量多级模型来估计每个时间点的结核病和无结核病之间的“真正差异”,但我真正想知道的是该人的无病应答和结核病应答它们来自相同的分布,或者它们的免疫系统是否识别TB抗原并激活,从而产生增强的反应。

至于除了感染以外还可能导致阳性测试的原因:我不确定。我怀疑结果通常只是个人差异,但肯定还有其他因素的可能性。我们确实在每个时间点都有调查表,但是我还没有研究太多。

*捏造但说明性的数据


哦,随时可以重新标记-我的浏览器无法使用自动建议功能,因此我很难查看其中的内容。
马特·帕克

您的因变量是连续的还是离散的?或者,潜在的测试结果是连续的,并根据某些截止值转换为离散答案(即“正”,“负”)?您能否也阐明为什么一个人即使没有患结核病也会从阴性转变为阳性?这种翻转的一个特定示例(带有一些数字)可能会有所帮助。

1
这些示例确实有助于可视化数据。关于您的警告的另一个问题是:“这些值在地板和天花板上结块,并且数据不正常。” 您能告诉我(a)秤低端的数据看起来正常吗(b)秤高端的数据看起来正常吗?

注意:我显然错过了实际授予赏金的截止日期,所以我正在设置另一个赏金,以便我可以适当地奖励Srikant的帮助。总是欢迎您提供更多答案,但是赏金属于他。
马特·帕克

Answers:


2

这不是一个完整的答案,但我希望它能为您提供一些有关如何以连贯的方式对情况建模的想法。

假设条件

  1. 刻度下端的值遵循从下方截断的正态分布。

  2. 标尺上端的值遵循从上被截断的正态分布。

    (注意:我知道您说的是数据不是正常的,但我假设您是指所有值的分布,而以上假设与比例尺下端和上端的值有关。)

  3. 一个人的基本状态(无论他们是否患有结核病)遵循一阶马尔可夫链。

模型

让:

  1. Di(t)为1,如果在时间的人有TB,否则为0,tith

  2. RTBi(t)是人在时间对TB测试的测试响应,tith

  3. RNi(t)是第人在时间对NILL测试的测试响应,tith

  4. f(RNi(t)|Di(t)=0)N(μl,σl2)I(RNi(t)>Rl)

  5. f(RNi(t)|Di(t)=1)N(μl,σl2)I(RNi(t)>Rl)

    第4点和第5点抓住了一个想法,即人们对NILL测试的反应不依赖于疾病状态。

  6. f(RTBi(t)|Di(t)=0)N(μl,σl2)I(RTBi(t)>Rl)

  7. f(RTBi(t)|Di(t)=1)N(μu,σu2)I(RTBi(t)<Ru)

  8. μu>μl

    第6、7和8点抓住了一个想法,即人们对结核病检测的反应取决于疾病状况。

  9. p(t)是某人在上一次测试期间无疾病的情况下,在时间之前的6个月内患上结核病的概率。因此,状态转换矩阵如下所示:t

    [1p(t)p(t)01]

    换一种说法,

    Prob(Di(t)=1|Di(t1)=0)=p(t)

    Prob(Di(t)=0|Di(t1)=0)=1p(t)

    Prob(Di(t)=1|Di(t1)=1)=1

    Prob(Di(t)=0|Di(t1)=1)=0

您的测试条件指出:

D^i(t)={1,RTBi(t)RNi(t)0.350,otherwise

但是,从模型的结构中可以看到,您实际上可以参数化临界值,并将整个问题更改为准确诊断患者的临界值。因此,摇摆器问题似乎更多是您选择截止值的问题,而不是其他任何问题。

为了选择“正确的”临界值,您可以获取有关明确确定患有结核病的患者的历史数据,并估算上述设置的结果参数。您可以使用一些标准,例如正确分类为结核病或没有结核病的患者人数来确定“最佳”模型。为简单起见,您可以假设是一个时不变参数,在没有流行病等情况下,这似乎是合理的。p(t)

希望是有用的。


谢谢,Srikant!抱歉,我早些时候想念您的评论。较高的簇实际上只是天花板上的一个尖峰-那里没有可变性,除了长的均匀性将其链接到较低的分布,这基本上就是您所描述的。我将花一些时间来解析您的答案(尤其是因为我陷入IE并无法正确看到LaTeX的情况下),但是我非常感谢您为这个奇怪的小问题所付出的努力。
马特·帕克

3

棘手的马特(Tricky Matt),就像许多现实世界中的统计数据问题一样!

我将开始定义您的学习目标。

如果不知道受试者的真实身份,将很难定义TB +和TB-测试的概率分布。您是否有关于先前结核感染(或更佳的病史)的疑问清单。另外,由于几十年前的儿童免疫接种,我仍在测试TB +,因此需要考虑以前的免疫接种。

在我看来,您的固有问题是:重复进行TB测试是否会影响测试结果?

值得一本Peter Diggle的“纵向数据分析”

做一些探索性的数据分析,尤其是零散测试矩阵的散布图矩阵,它们分别是相对于彼此的零测试结果以及相对于彼此的TB测试结果。以及TB与零散布图(每次)。还要取差异(TB检验-无检验)并进行散点图矩阵处理。尝试对数据进行转换并重做-我想如果TB结果相对于Nil非常大,则log(TB)-log(Nil)可能会有所帮助。在相关性结构中寻找线性关系。

另一种方法是获取定义的测试结果(正/负),并使用非线性混合效应模型(logit链接)对此模型进行对数建模。是否有人在TB +到TB-的测试之间切换,这是否与他们的Nil测试,TB测试,TB-Nil或测试结果的某些转换有关?


感谢您的回答。关于不知道真实状态:我们确实有大量的调查表,并且非常了解卡介苗的BCG疫苗问题-实际上,这些血液检验可以解决该问题,因为它们使用的抗原与您使用的PPD不同习惯了。但是,这几乎是一个单独的问题,稍后我们将进行研究-现在,我的兴趣是使此测试“具有纵向意识”。
马特·帕克

...尤其是因为某些人确实从消极转变为积极,而这通常是其典型的零和结核病结果产生较小波动的乘积-零下降,结核病升高一点,然后突然他们是积极的。下一次测试,他们又回到了负面。在查看单个结果时,我可以看到,但是我不确定如何将我的直觉纳入模型。
马特·帕克

最后,虽然我尝试获取日志结果,但这似乎不足以使它们接近正常值。它们非常,非常歪斜,高端处的截断在天花板上增加了明显的密度斑点,使情况进一步复杂化。但是,有趣的是,样本范围内的零值和结核病结果分布非常相似,唯一的区别是,结核病结果的上限更大。
马特·帕克

感谢您抽出宝贵的时间阅读并回答这个问题!
马特·帕克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.