效应大小要对Wilcoxon进行秩检验吗?


18

一些作者(例如Pallant,2007年,第225页;请参见下图)建议通过将测试统计量除以观察次数的平方根来计算Wilcoxon符号秩检验的效应大小:

[R=žñX+ñÿ

Z是SPSS(请参见下图)以及wilcoxsign_testR中的测试统计信息输出。(另请参阅我相关的问题:wilcoxsign_test中的teststatistic vs linearstatistic

其他人建议使用Bravais-Pearson()或Spearman()相关系数(取决于数据类型)。[R=CØvXÿsdX×sdÿ[R小号

当您计算它们时,两个rs甚至远不是相同的。例如,对于我当前的数据:

r = 0.23(对于[R=žñX+ñÿ

r = 0.43(皮尔逊)

这些将暗示效果大小完全不同。

那么,要使用的正确的效果大小是什么,这两个大小如何r相互关联?


Pallant,J.(2007)的第224页(底部)和225页。SPSS生存手册:

在此处输入图片说明

在此处输入图片说明



3
我宁愿保持现状-如果Bravais值得用一种语言来表扬,他应该用另一种语言来表扬!我感谢填补我的教育空白。
Glen_b-恢复莫妮卡2015年

1
是的,因为我需要一个可以处理领带的测试。

2
nññ=ñX+ñÿ

1
我个人认为Z / sqrt(n)可能是一种选择。曼恩·惠特尼(Mann-Whitney)上的Wikipedia链接到Kirby的pdf文件,该文件也考虑了配对的Wilcoxon;我还没有自己读过这篇文章。
ttnphns

Answers:


6
  • 如果您没有联系,我将报告后值小于相应前值的比例。
  • 如果您确实有关系,则可以报告非绑定对总数中小于after的after值的比例,或者报告所有三个比例(<,=,>)以及两个值之和更有意义。例如,您可以说“ 33%的人对统计数据的恐惧较少,而57%的人对统计的恐惧较小,而10%的人对课程的恐惧程度更高,因此90%的恐惧与以前相同或更好”。

ñžñž/ñž/ñ

但是,还有另一道皱纹。当您需要估计总体效果的大小时,人们通常使用仅具有序数数据的Wilcoxon符号秩检验。就是说,他们不相信数据可以可靠地指示学生内班次的变化幅度,而仅表示发生了班级变化。这使我想到了上面讨论的改进比例。


另一方面,如果您确实相信这些值在本质上是有意义的(例如,您仅使用符号秩检验来证明其对正态性和离群值的鲁棒性),则可以仅使用原始均值或中位数差,或标准化均值差作为效果的衡量标准。


2
+1您建议的效果度量很容易理解,并且与测试统计信息有关。
约翰

2

不知道要评估哪种数据,很难在这里给出好的建议。实际上,这就是您所能获得的。对于这样的问题,也许没有最好的衡量效果大小的方法……也许永远如此。

问题中提到的效果大小均为标准效果大小。但是,完全有可能使原始度量的均值或中值很好。例如,如果您要测量完成制造过程所需的时间,则时间差应该是一个完全合理的效果量。过程,将来的度量,跨系统的度量以及跨工厂的度量的任何更改都将及时发布。也许您想要平均值,或者您想要中位数,甚至是众数,但您需要做的第一件事是查看实际的度量范围,并查看那里的效应大小是否合理地解释并与度量紧密相关。

为了帮助考虑这一点,应该标准化的效果是通过更多间接方式和多种方式衡量的事物。例如,心理量表可以随时间以多种方式变化,并试图得出未直接评估的潜在变量。在这些情况下,您需要标准化的效果大小。

对于标准化的效果大小,关键问题不仅是使用哪种,还意味着什么。正如您在问题中暗示的那样,您也不知道它们的含义,这很关键。如果您不知道标准化的效果是什么,那么您将无法正确报告,正确解释或正确使用它。此外,如果您想通过多种方式讨论数据,那么绝对不会阻止您报告多个效果大小。您可以按照线性关系(例如与产品动量相关性)或与排名之间的关系(与Spearman)讨论数据r以及两者之间的差异,或者仅提供表中的所有信息。完全没有错。但是,决定您想要的结果意味着什么比什么都重要。从给出的信息中无法回答这一问题,并且可能需要更多的信息和特定领域的知识,而不是此类论坛中合理的问题。

并始终对您如何报告效果进行元分析。未来的人们是否能够接受我报告的结果并将其与其他人集成?也许您的领域在这些事情上有一个标准。也许您之所以选择非参数测试,主要是因为您不信任其他人对基础分布所做的结论,并且您希望在主要使用参数测试的领域中对自己的假设更为保守。在这种情况下,额外提供通常与参数测试一起使用的效果大小没有什么错。在考虑如何将您的发现放入类似研究的较大文献中时,需要考虑这些以及许多其他问题。通常,良好的描述性统计数据可以解决这些问题。

这就是主要建议。我还有一些其他意见。如果您希望效果大小与您所做的测试密切相关,那么Z基于基础的建议显然是最好的。您的标准化效果大小将与测试意义相同。但是,一旦您不这样做,那么使用大多数其他东西就没有问题,即使是与Cohen一样的d参数测试也是如此。计算均值,标准偏差或d分数。实际上,存在比建议的相关系数更弱的假设。并始终报告良好的描述性措施。同样,描述性措施没有假设您会违反,但请记住其实质性含义。您报告的描述性统计数据表明了您要说的数据,平均值和中位数表示了不同的内容。

如果您想讨论重复测量与独立设计效果大小之间的关系,那么这实际上是一个全新的问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.