标度变量作为计数数据-对不对?


10

本文中(可通过PubMed Central免费获得),作者使用负二项式回归在得分为0-40的10项筛选工具上对得分进行建模。此过程假定计数数据,这里显然不是这种情况。我希望您对此方法是否可以接受发表意见,因为有时我在工作中使用相同或相似的工具。如果没有,我想知道是否有任何可接受的替代方法。以下是更多详细信息:

所使用的量表是酒精使用障碍识别测试(AUDIT),这是一项10项问卷,旨在筛查酒精使用障碍和有害/有害饮酒。乐器的得分从0到40,并且结果通常偏左。

据我了解,使用计数数据是假设所有“计数”的值彼此独立-每天上急诊室的患者,特定人群中的死亡人数等-它们彼此独立,尽管取决于基础变量。此外,我认为使用计数数据时不能有最大允许计数,尽管我认为当理论最大值与数据中观察到的最大值相比很高时,可以放宽此假设?

使用AUDIT量表时,我们没有真实的计数。我们有10个项目,最大总分40,尽管在实践中很少看到高分。这些项目的分数自然相互关联。

因此违反了使用计数数据所需的假设。但这仍然是可以接受的方法吗?违反这些假设有多严重?在某些情况下可以认为此方法更可接受?该方法是否有不涉及将scale变量减少到类别的替代方法?

Answers:


4

审核工具本质上是李克特量表。旨在解决某些潜在现象的一组问题(Likert项目)通常具有五点量表的答案。然后,将对一组问题的回答总和(李克特量表)用作衡量潜在现象的量度。虽然李克特项目往往对“强烈不同意”的比例为“强烈同意”的应用来衡量朝“倾向 lcohol ü SE d在这个” isorders“ dentification 牛逼 EST”很简单。

Likert规模的Wikipedia页面中所述,“ 在文献中,人们对各个Likert项目是否可以视为区间级别的数据,或者是否应将它们视为按顺序分类的数据进行了广泛的争论,最适用的方法。” 这场争议可能可以追溯到Likert首次提出量表以来的80多年中:在构成量表的项目之内和之中,量表上的每一步都相等吗?该问题已在“交叉验证”中得到了解决,对此问题的解答是该网站上最早提出的问题之一。

如果您接受比例尺具有统一步长的想法(或足够接近以适合手头应用程序的步长,也许可以通过添加10个不同项来求平均,如AUDIT),那么可以使用几种分析方法。一种是将标尺上的响应视为一系列选择或不选择的步骤,以使标尺上移,每个步骤上移的可能性相同。

这使人们可以将“ n点李克特量表数据视为来自二项式过程的n次试验 ”,就像@MikeLawrence在2010年提出的问题一样。尽管对该问题的回答并非完全支持该想法,但今天迅速找到一项成功使用并扩展了该方法以区分具有不同二项式概率的亚人群的2014年研究并不难。尽管二项式过程通常用于对计数数据进行建模,但因此可以用于对个人按照“酒精使用障碍”的规模进行的步数,计数进行建模。

正如@Scortchi 在对第二段中链接的问题的回答中指出的那样,二项式模型的局限性在于它在响应的均值和方差之间施加了特定的关系。该负二项分布取消了该限制,由简单二项式模型提供的易解释的损失。在分析中,需要拟合的额外参数仅消耗一个额外的自由度。相反,尝试为40个Likert-item步骤中的每个步骤指定不同的概率,并将它们的总和计入Likert量表将是艰巨的。

正如@MatthewGraves在回答这个问题时指出的那样,否定二项式模型是否合适最好通过检查残差来回答。在最初开发AUDIT的研究中,在40个点的量表上,值8或更高具有很好的特异性和敏感性,可以区分6个国家中被诊断为“有害或有害饮酒”的人。因此,也许类似于以上链接的2014年研究那样,基于高风险和低风险人口的两人口二项式模型会更好。

那些对AUDIT感兴趣的人应该检查该原始研究。例如,尽管@SeanEaster推测,尽管早上喝酒的量似乎与喝酒的频率完全不同,但早上喝酒与酒精摄入量度的加权平均相关系数为0.73。(对于有酗酒障碍朋友的人来说,这一结果不足为奇。)AUDIT似乎是开发可在多种文化中可靠使用的仪器时需要权衡的好例子。


谢谢您的答复。当查看我自己的超过20000个人的AUDIT数据时,形状看起来接近负二项式分布,因此使用该分布假设可能是合理的,或者可以使用拟泊松模型?如果我们使用二项分布来考虑点,将其作为40个bernoulli试验中的k个成功,那么我们是否存在严重的过度分散问题?在我的数据中看起来就是这样。准二项式可以替代吗?
2015年

在很大程度上取决于您为什么要对0-40 AUDIT分数建模,以及您希望对结果进行何种启发式解释。如果您只想了解AUDIT分数与其他变量之间的关系,并且只能对分布参数值本身进行有限的解释,则请使用提供行为良好的残差的分布;您的建议是合理的。将单个二项式拟合到数据是有问题的,但是两个具有不同p的二项式(高风险和低风险组)的混合可能会提供信息。根据您对主题的了解做出判断。
EdM 2015年

2

负二项式分布是优选的“传染性”离散事件。甲泊松分布当离散事件是独立的被使用。通过基本上将点替换为点,这些分布也相当容易截断。x=40x40

作为一般性评论,不同的回归风格具有不同的参数先验先验(即正则化)和不同的噪声模型。标准最小二乘回归具有高斯噪声模型,负二项式回归具有负二项式噪声模型,依此类推。回归模型是否合适的真正检验是残留噪声是否具有预期的分布。

因此,您可以对数据应用负二项式回归,计算残差,然后将其绘制在负二项式概率图上,从而了解该模型是否合适。如果噪声是以其他方式构造的,则我们需要寻找更适合该结构的噪声模型。

从生成模型到噪声结构的推理是有帮助的-例如,如果我们知道数据是可乘的而不是加性的,我们可以达到对数正态而不是正态-但是如果期望的生成模型和噪声结构不同,处理数据,而不是期望。


有趣的是,我不知道这些事件可能是“传染性的”。实际上,将x = 40替换为x> = 40是什么意思?如何在R中做负二项式概率图?我想您不是要针对拟合值绘制残差吗?你是说像个QQ剧情吗?
JonB

@JonB假设您有一个负二项式,其中r = 1,成功概率p = .9。幸存40次试验的概率为0.148%;生存40个或更多试验的概率为1.48%。因此,可以使用[0,39]的负二项式,然后将[40]设置为[1],从而在域[0,40]上定义格式正确的概率,这是因为负二项式分布很好-形成的概率是等于或大于40。
马修·格雷夫斯

@JonB确实,我的意思是像QQ剧情。我以前没有在R中做过,但希望此链接对您有所帮助。
马修·格雷夫斯

1
我对一些具有AUDIT分数的数据进行了实验。创建qq图时,我需要根据负二项分布创建一个随机结果向量。mu / theta由我的回归模型给出,但是我怎么知道要使用什么“大小”?很抱歉,如果这是一个R特有的问题。无论如何,您是否有一个不错的参考资料I,我可以阅读有关将负二项式(和其他分布)应用于这些量表的更多信息,该量表是通过累加一些衡量种类的项而构造的同一过程?
2015年

我现在做了一些额外的实验。我模拟了具有两个变量的数据集:x和y。50%是x = 0,50%是x = 1。x = 0的人的y = 1的概率为0.2,而x = 1的人的y = 1的概率为0.4。然后,我进行了逻辑回归,并研究了残差。看起来根本不是二项分布的。实际上,它们(当然)具有4个特定值。您确定残差模式应始终符合分布假设吗?因为在这种情况下,这显然是错误的。
JonB
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.