接下来是这个问题:假设您想测试一下李克特(Likert)项目的5点(例如,对生活的满意度:不满意)对两组(例如,男性和女性)的集中趋势的差异。我认为t检验在大多数情况下都足够准确,但是对组均值之间的差异进行自举检验通常可以提供更准确的置信区间估计。您将使用什么统计检验?
接下来是这个问题:假设您想测试一下李克特(Likert)项目的5点(例如,对生活的满意度:不满意)对两组(例如,男性和女性)的集中趋势的差异。我认为t检验在大多数情况下都足够准确,但是对组均值之间的差异进行自举检验通常可以提供更准确的置信区间估计。您将使用什么统计检验?
Answers:
Clason&Dormody讨论了Likert项目的统计测试问题(分析由各个Likert类型项目测得的数据)。我认为当两个分布看起来相似(钟形和均方差)时,可以进行自举测试。但是,对分类数据进行测试(例如趋势或Fisher检验或有序逻辑回归)也会很有趣,因为它可以检查项目类别之间的响应分布,请参阅Agresti关于分类数据分析的书(关于Logit模型的第7章)。多项式响应)。
除此之外,您可以想象如果两个组之间的响应分布严重失衡,则t检验或任何其他非参数检验将失败的情况。例如,如果来自A组的所有人回答1或5(均等比例),而来自B组的所有人回答3,那么您最终得到的是相同的组内均值,并且测试根本没有意义,尽管在这种情况下均等假设被严重违反。
恕我直言,您不能对李克特量表使用t检验。利克特量表是有序的,仅对变量值的关系“了解”:例如,“完全不满意”比“某种程度上不满意”更糟。另一方面,t检验需要计算均值和更多,因此需要区间数据。您可以将李克特量表分数映射到间隔数据(“完全不满意”为1,依此类推),但是没有人保证“完全不满意”与“某种程度上不满意”的距离与“某种程度上不满意”来自“既不也不是”的距离相同。顺便说一句:“完全不满意”和“完全不满意”之间有什么区别?因此,最后,您需要对序数数据的编码值进行t检验,但这没有任何意义。
如果问卷中的每个项目都是顺序的,并且鉴于没有办法知道“完全同意”和“同意”之间的数量差异是否与“强烈不同意”和“不同意”,那么为什么所有这些序数等级标度的总和会产生一个共享真实区间等级数据属性的值?
例如,如果我们要解释抑郁症清单的结果,那么(至少对我而言)说得分为“ 20”的人的抑郁感是得分为“”的人的两倍是没有道理的(至少对我而言) 10“。这是因为调查表中的每个项目并没有衡量抑郁症水平的实际差异(假设抑郁症是一种稳定的,自发性的,器质性疾病),而是该人对特定陈述的主观认同程度。当被问及“您的情绪如何在1-4的范围内,1的情绪非常低落而4的情绪完全不被压抑”时,我怎么知道一个受访者的主观评分为1与另一个受访者的主观评分相同?或者我怎么知道人与人之间4和3的差异是否与3和4的差异相同 当前的抑郁水平。如果我们对此一无所知,那么将所有这些序数项的总和视为区间水平数据就没有任何意义。即使数据确实形成了正态分布,我也不认为将得分之间的差异作为区间水平数据的方法是通过对李克特项目的所有响应相加得出的。数据的正态分布仅表示响应可能代表更大的人群。这并不意味着从库存获得的值具有区间水平数据的重要属性。如果通过将所有对李克特项目的答案相加计算得出分数,则认为将分数之间的差异视为区间水平数据是合适的。数据的正态分布仅表示响应可能代表更大的人群。这并不意味着从库存获得的值具有区间水平数据的重要属性。如果通过将所有对李克特项目的答案相加计算得出分数,则认为将分数之间的差异视为区间水平数据是合适的。数据的正态分布仅表示响应可能代表更大的人群。这并不意味着从库存获得的值具有区间水平数据的重要属性。
在行为科学中,我们需要谨慎对待如何使用统计数据与正在研究的潜在变量进行对话,因为由于没有直接的方法可以测量这些假设结构,因此在尝试量化主题时会遇到重大问题进行参数测试。同样,仅仅因为我们已将值分配给一组响应并不意味着这些值之间的差异是有意义的。
对于李克特项目量表,比例优势比模型优于t检验。
我将尝试在这种情况下解释比例赔率比率模型,因为它已被提出并至少在该问题的2个答案中指出。
比例赔率模型的得分测试等同于Wilcoxon等级和测试。
更准确地说,在序数结果的成比例比值累积逻辑回归模型(McCullagh 1980)中,没有一个二分法协变量没有影响的得分检验统计量就等于Wilcoxon秩和检验统计量。(在Wilcoxon秩和检验的扩展中证明了复杂的样本调查数据。)
就像Wilcoxon秩和检验一样,该检验可以检测是否从不同的分布中抽取了两个样本,而与预期值无关。
如果只想检测是否从期望值不同的分布中抽取了两个样本,则此检验无效,就像Wilcoxon秩和检验一样。