相互比较p值有什么意义?


20

我有两个人口(男人和女人),每个人口包含样本。对于每个样本,我都有两个属性A和B(第一年平均成绩和SAT分数)。我分别对A和B使用了t检验:两者都发现两组之间存在显着差异。A(和B(。p = 0.008 p = 0.0021000p=0.008p=0.002

可以断言属性B比属性A更好地被识别(更重要)吗?还是t检验只是是或否(有效或无效)度量?

更新:根据这里的评论以及我在Wikipedia上所读的内容,我认为答案应该是:删除无意义的p值并报告效果大小。有什么想法吗?


+请原谅我不是英语为母语的人:)
Dov 2012年

没问题:如果您认为我进行的(次要)修改以任何有意义的方式改变了您的问题,请随时进行更正。
Whuber

您测量的结果如何?(即,由A /不是A或B /不是B定义的组之间的区别是什么?)是否对所有1000个样本都进行了测量,还是有些缺失?
来宾

3
报告两个不同的效果大小,或报告两个不同的效果大小的置信区间,将是一个好主意。如果两个数据集中的每个结果都相同(是吗?),将更容易解释这一点。
彼得·埃利斯

2
通过使用森林图,您可以非常方便地显示统计意义效果大小!呈现95%的配置项意味着您使用的是4个数字而不是2个,但是正如每个人都提到的那样,它足以表示比较实验所需的信息范围。
AdamO 2014年

Answers:


20

许多人会认为值可以是有意义的(p < α),也可以不重要,因此比较两个p值(永远)是没有意义的。这是错误的;在某些情况下确实如此。pp<αp

在您的特定情况下,绝对可以直接比较。如果样本大小是固定的(n = 1000),则p值t值单调相关,而t值又与由Cohen d测得的效应大小单调相关。具体来说,d = 2 t / pn=1000ptd。这意味着您的p值与效果大小一一对应,因此可以确定,如果属性A的p值大于属性B的p值,那么A的效果大小会更小比物业Bd=2Ť/ñpp

我相信这可以回答您的问题。

其他几点:

  1. 仅在样本大小固定的情况下才是正确的。如果在一个具有一个样本量的实验中,对于属性A,对于属性A,p = 0.008;对于在另一样本量的另一实验中,对于属性B,对于p = 0.002,则将它们进行比较将更加困难。ñp=0.008p=0.002

    • 如果问题特别是在人群中A或B是否更好地“被歧视”(即:通过查看A或B值,您对性别的预测程度如何?),那么您应该查看效果的大小。在简单的情况下,知道n足以计算效果大小。pñ

    • 如果问题更模糊:哪个实验针对空值提供更多的“证据”?(如果例如A = B,这可能是有意义的)-然后问题变得复杂且引起争议,但是我要说的是,值的定义针对null的证据的标量汇总,因此p值越低,即使样本大小不同,证据也越有力。pp

  2. 说B的效应大于A的效应,并不意味着它明显更大。您需要在A和B之间进行一些直接比较才能提出这样的要求。

  3. 除了以外,报告(和解释)效果大小和置信区间也是一个好主意。p


3
关于单调性的好点,以及最后的3分。现在,重新:“您可以确定”的声明:对于样本来说足够真实,但是“明显如此”吗?(即,对人口有可信赖的影响吗?)您确实在#2中进行了简要说明。欢迎对此进行更充分的处理。干杯〜
rolando2

4
没错,但是我也想弄清楚,在这种情况下,这仅是正确的(您也要注意这一点)。我认为Michelle提出了一个有价值的观点,即通常不应该以这种方式使用p值。
gung-恢复莫妮卡

1
(-1)这篇文章的正文是正确的,但是开头的句子(“许多人会认为…… 彼此比较两个没有意义。这是错误的。”)误解为一般性建议,但实际上仅在特殊情况下才适用,例如此处的建议。p
安德鲁M

1
@AndrewM也许。我已经编辑了答案的开头。看看您现在是否喜欢它。
变形虫说莫妮卡(Monica)恢复

0

多亏了刚刚拒绝我投票的人,因为我现在对这个问题有了完全不同的答案,因此我删除了原来的答案,因为从这个角度来看这是不正确的。

在这个问题的背景下,仅处理“在我的研究中A或B是更好的判别器”这个问题,我们正在处理人口普查而不是样本。因此,使用推论统计数据(例如用于产生p值的统计数据)是不相关的。推论统计用于根据我们从样本中获得的估计推论出人口估计。如果我们不希望将其推广到总体,那么这些方法是不必要的。(围绕普查中的缺失值存在一些特定的问题,但在这种情况下无关紧要。)

不可能在总体中获得结果。我们获得了我们得到的结果。因此,我们得出结果的可能性为100%。无需构建置信区间-样本的点估计是准确的。我们根本不需要估算任何东西。

在“哪种变量更适合我的数据”这一特定情况下,所有需要做的就是以简单的摘要形式查看结果。一个表可能就足够了,也许是像箱形图这样的图形。


-1

您得到p的差异,但尚不清楚该差异是什么意思(是大,小,重要吗?)

也许使用引导程序:

从数据中选择(替换),重做测试,计算p的差(p_a-p_b),重复100-200次

检查您的增量p的哪一部分小于0(意味着A的p小于B的p)

注意:我已经看过了,但是还不是专家。


1
该答复描述了一种比较 p值的方法,但最初的问题似乎仍未得到解答:该程序有意义吗?如何解释结果?
Whuber

-1

添加了答案,因为评论太长了!

Michelle的反应很好,但是许多评论显示了一些有关p值的常见讨论。基本思想如下:

1)较小的p值并不意味着结果或多或少是有意义的。这仅意味着获得结果至少达到极限的可能性较小。重要性是根据您选择的重要性级别(在运行测试之前选择的)得出的二进制结果。

2)效果大小(通常标准化为#的标准偏差)是量化两个数字“有多少不同”的好方法。因此,如果数量A的影响大小为.8标准偏差,而数量B的影响大小为.5标准偏差,则您可以说数量A的两组之间的差异大于数量B的差异。 :

.2标准差=“小”效应

.5标准差=“中”效果

.8标准差=“大”效应


1
但是给定固定的样本大小,p值与效果大小直接单调相关!
变形虫说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.