我有两个人口(男人和女人),每个人口包含样本。对于每个样本,我都有两个属性A和B(第一年平均成绩和SAT分数)。我分别对A和B使用了t检验:两者都发现两组之间存在显着差异。A(和B(。p = 0.008 p = 0.002
可以断言属性B比属性A更好地被识别(更重要)吗?还是t检验只是是或否(有效或无效)度量?
更新:根据这里的评论以及我在Wikipedia上所读的内容,我认为答案应该是:删除无意义的p值并报告效果大小。有什么想法吗?
我有两个人口(男人和女人),每个人口包含样本。对于每个样本,我都有两个属性A和B(第一年平均成绩和SAT分数)。我分别对A和B使用了t检验:两者都发现两组之间存在显着差异。A(和B(。p = 0.008 p = 0.002
可以断言属性B比属性A更好地被识别(更重要)吗?还是t检验只是是或否(有效或无效)度量?
更新:根据这里的评论以及我在Wikipedia上所读的内容,我认为答案应该是:删除无意义的p值并报告效果大小。有什么想法吗?
Answers:
许多人会认为值可以是有意义的(p < α),也可以不重要,因此比较两个p值(永远)是没有意义的。这是错误的;在某些情况下确实如此。
在您的特定情况下,绝对可以直接比较。如果样本大小是固定的(n = 1000),则p值与t值单调相关,而t值又与由Cohen d测得的效应大小单调相关。具体来说,d = 2 t / √。这意味着您的p值与效果大小一一对应,因此可以确定,如果属性A的p值大于属性B的p值,那么A的效果大小会更小比物业B
我相信这可以回答您的问题。
其他几点:
仅在样本大小固定的情况下才是正确的。如果在一个具有一个样本量的实验中,对于属性A,对于属性A,p = 0.008;对于在另一样本量的另一实验中,对于属性B,对于p = 0.002,则将它们进行比较将更加困难。
如果问题特别是在人群中A或B是否更好地“被歧视”(即:通过查看A或B值,您对性别的预测程度如何?),那么您应该查看效果的大小。在简单的情况下,知道和n足以计算效果大小。
如果问题更模糊:哪个实验针对空值提供更多的“证据”?(如果例如A = B,这可能是有意义的)-然后问题变得复杂且引起争议,但是我要说的是,值的定义是针对null的证据的标量汇总,因此p值越低,即使样本大小不同,证据也越有力。
说B的效应大于A的效应,并不意味着它明显更大。您需要在A和B之间进行一些直接比较才能提出这样的要求。
除了以外,报告(和解释)效果大小和置信区间也是一个好主意。
多亏了刚刚拒绝我投票的人,因为我现在对这个问题有了完全不同的答案,因此我删除了原来的答案,因为从这个角度来看这是不正确的。
在这个问题的背景下,仅处理“在我的研究中A或B是更好的判别器”这个问题,我们正在处理人口普查而不是样本。因此,使用推论统计数据(例如用于产生p值的统计数据)是不相关的。推论统计用于根据我们从样本中获得的估计推论出人口估计。如果我们不希望将其推广到总体,那么这些方法是不必要的。(围绕普查中的缺失值存在一些特定的问题,但在这种情况下无关紧要。)
不可能在总体中获得结果。我们获得了我们得到的结果。因此,我们得出结果的可能性为100%。无需构建置信区间-样本的点估计是准确的。我们根本不需要估算任何东西。
在“哪种变量更适合我的数据”这一特定情况下,所有需要做的就是以简单的摘要形式查看结果。一个表可能就足够了,也许是像箱形图这样的图形。
添加了答案,因为评论太长了!
Michelle的反应很好,但是许多评论显示了一些有关p值的常见讨论。基本思想如下:
1)较小的p值并不意味着结果或多或少是有意义的。这仅意味着获得结果至少达到极限的可能性较小。重要性是根据您选择的重要性级别(在运行测试之前选择的)得出的二进制结果。
2)效果大小(通常标准化为#的标准偏差)是量化两个数字“有多少不同”的好方法。因此,如果数量A的影响大小为.8标准偏差,而数量B的影响大小为.5标准偏差,则您可以说数量A的两组之间的差异大于数量B的差异。 :
.2标准差=“小”效应
.5标准差=“中”效果
.8标准差=“大”效应