五点李克特项目的分组差异


22

接下来是这个问题:假设您想测试一下李克特(Likert)项目的5点(例如,对生活的满意度:不满意)对两组(例如,男性和女性)的集中趋势的差异。我认为t检验在大多数情况下都足够准确,但是对组均值之间的差异进行自举检验通常可以提供更准确的置信区间估计。您将使用什么统计检验?


2
一个相关的问题:人们经常对这类数据使用非参数的Mann-Whitney检验。由于只有五个可能的值,因此会有很多并列的排名。曼恩·惠特尼(Mann-Whitney)检验针对并列排名进行调整,但是当领带数量众多时,这种调整是否起作用?
哈维·莫图尔斯基

5
您可能对最近发表在PARE的《五点李克特项目:t检验与Mann-Whitney-Wilcoxon》j.mp/biLWrA)感兴趣
chl 2010年

我不确定卡方检验是否也适用,它检验组和项目之间是否存在任何依赖关系(组之间的不同分布)。
pe-pe-rry 2014年

Answers:


12

Clason&Dormody讨论了Likert项目的统计测试问题(分析由各个Likert类型项目测得的数据)。我认为当两个分布看起来相似(钟形和均方差)时,可以进行自举测试。但是,对分类数据进行测试(例如趋势或Fisher检验或有序逻辑回归)也会很有趣,因为它可以检查项目类别之间的响应分布,请参阅Agresti关于分类数据分析的书(关于Logit模型的第7章)。多项式响应)。

除此之外,您可以想象如果两个组之间的响应分布严重失衡,则t检验或任何其他非参数检验将失败的情况。例如,如果来自A组的所有人回答1或5(均等比例),而来自B组的所有人回答3,那么您最终得到的是相同的组内均值,并且测试根本没有意义,尽管在这种情况下均等假设被严重违反。


Clason and Dormody的文章看起来不错。您的响应分布注释值得考虑。我同意分配方面的差异可能会引起关注。但是,如果您仅对人口群体的平均值是否有所不同感兴趣,那么什么分布引起这种平等并不一定。
Jeromy Anglim

在这种情况下,您假设自己的李克特量表(换句话说,在“非常满意”和“只是”满意之间的感知差异)表现理想,并且在两个总体中被认为具有相同的含义。因此,您隐含地假设这是一个数字量表,但我同意在应用研究中通常将其视作这样,特别是如果参与者来自同一国家。我的目的只是强调分类数据分析的观点,就像在我对问题10的答复中一样,通常在因子分析的传统中可以找到这种观点。
chl 2010年

我假设样本对李克特项目作出回应的平均值通常是该组在基础维度上的位置的有意义的总结。考虑一下李克特项目的含义何时会在组之间系统地变化是很有趣的。当然,这个问题不仅限于李克特项目,还可能涉及任何主观测量程序。
Jeromy Anglim

8

根据所讨论数据集的大小,置换测试可能比引导程序更好,因为它可以提供假设的精确检验(和精确的CI)。


4

恕我直言,您不能对李克特量表使用t检验。利克特量表是有序的,仅对变量值的关系“了解”:例如,“完全不满意”比“某种程度上不满意”更糟。另一方面,t检验需要计算均值和更多,因此需要区间数据。您可以将李克特量表分数映射到间隔数据(“完全不满意”为1,依此类推),但是没有人保证“完全不满意”与“某种程度上不满意”的距离与“某种程度上不满意”来自“既不也不是”的距离相同。顺便说一句:“完全不满意”和“完全不满意”之间有什么区别?因此,最后,您需要对序数数据的编码值进行t检验,但这没有任何意义。


9
...但通常是这样做的。需要指出的一件事,是的,如果您使用的不是李克特量表的李克特型物品,这有点学问。区别是有意义的(尽管问问者正在谈论一个李克特项目,而序数是一个问题)。利克特量表是对多个利克特项目求和或求平均值的结果。这种方法是专门为抵消序数数据实际序数的程度而开发的,并使其在区间量表上更为合理。
russellpierce 2010年

3

如果问卷中的每个项目都是顺序的,并且鉴于没有办法知道“完全同意”和“同意”之间的数量差异是否与“强烈不同意”和“不同意”,那么为什么所有这些序数等级标度的总和会产生一个共享真实区间等级数据属性的值?

例如,如果我们要解释抑郁症清单的结果,那么(至少对我而言)说得分为“ 20”的人的抑郁感是得分为“”的人的两倍是没有道理的(至少对我而言) 10“。这是因为调查表中的每个项目并没有衡量抑郁症水平的实际差异(假设抑郁症是一种稳定的,自发性的,器质性疾病),而是该人对特定陈述的主观认同程度。当被问及“您的情绪如何在1-4的范围内,1的情绪非常低落而4的情绪完全不被压抑”时,我怎么知道一个受访者的主观评分为1与另一个受访者的主观评分相同?或者我怎么知道人与人之间4和3的差异是否与3和4的差异相同 当前的抑郁水平。如果我们对此一无所知,那么将所有这些序数项的总和视为区间水平数据就没有任何意义。即使数据确实形成了正态分布,我也不认为将得分之间的差异作为区间水平数据的方法是通过对李克特项目的所有响应相加得出的。数据的正态分布仅表示响应可能代表更大的人群。这并不意味着从库存获得的值具有区间水平数据的重要属性。如果通过将所有对李克特项目的答案相加计算得出分数,则认为将分数之间的差异视为区间水平数据是合适的。数据的正态分布仅表示响应可能代表更大的人群。这并不意味着从库存获得的值具有区间水平数据的重要属性。如果通过将所有对李克特项目的答案相加计算得出分数,则认为将分数之间的差异视为区间水平数据是合适的。数据的正态分布仅表示响应可能代表更大的人群。这并不意味着从库存获得的值具有区间水平数据的重要属性。

在行为科学中,我们需要谨慎对待如何使用统计数据与正在研究的潜在变量进行对话,因为由于没有直接的方法可以测量这些假设结构,因此在尝试量化主题时会遇到重大问题进行参数测试。同样,仅仅因为我们已将值分配给一组响应并不意味着这些值之间的差异是有意义的。


1
如果您乐于对项目分数求和,则您已经承担了不仅仅严格按序进行的测量。严格来说,序数度量不能有意义地相加或取平均值(顺便说一句,史蒂文斯对此很清楚)。完成此操作后,将所得分数视为间隔水平数据是完全合理的。
庆典

0

对于李克特项目量表,比例优势比模型优于t检验。


1
您想解释一下您的原因吗?我可以看到这样的模型如何为观察到的响应提供更精确的模型。但是,在我所看到的典型的实际研究情况下,研究人员对两组的均值是否不同感兴趣(例如,培训组的成绩是否比对照组高;学生的满意度到下一年是否更高)? )。据我所知,比例优势比模型并未完全测试该问题。
Jeromy Anglim

0

我将尝试在这种情况下解释比例赔率比率模型,因为它已被提出并至少在该问题的2个答案中指出。

比例赔率模型的得分测试等同于Wilcoxon等级和测试。

更准确地说,在序数结果的成比例比值累积逻辑回归模型(McCullagh 1980)中,没有一个二分法协变量没有影响的得分检验统计量就等于Wilcoxon秩和检验统计量。(在Wilcoxon秩和检验的扩展中证明了复杂的样本调查数据。)

就像Wilcoxon秩和检验一样,该检验可以检测是否从不同的分布中抽取了两个样本,而与预期值无关。

如果只想检测是否从期望值不同的分布中抽取了两个样本,则此检验无效,就像Wilcoxon秩和检验一样。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.