在没有假设的情况下P值的丰度


28

我正在流行病学。我不是统计学家,但尽管经常遇到困难,但我还是尝试自己进行分析。大约2年前,我做了第一次分析。从描述表到回归分析,P值被包括在我的分析中的所有地方(我只是做了其他研究人员所做的事情)。渐渐地,在我公寓里工作的统计学家说服我跳过所有(!)p值,除非我真正有一个假设。

问题在于,p值在医学研究出版物中很丰富。通常在太多行上都包含p值;平均值,中位数或其他通常带有p值的描述性数据(学生t检验,卡方等)。

我最近向期刊提交了一篇论文,但我拒绝(礼貌地)在我的“基准”描述性表中添加p值。该文件最终被拒绝。

例如,请参见下图;这是一本受人尊敬的内科杂志上最新发表的文章的描述性表格: 在此处输入图片说明

统计人员大部分(如果不是总是)参与这些手稿的审阅。因此,像我这样的外行人希望在没有假设的情况下找不到任何p值。但是它们很丰富,但是对于我来说,其原因仍然难以捉摸。我发现很难相信这是无知。

我意识到这是一个临界的统计问题。但我正在寻找这种现象背后的原因。


12
没有假设的p值本质上是有缺陷的。当您没有假设时,p值甚至意味着什么?
jameselmore

3
您能否举例说明人们使用p值而没有任何假设的例子?这还不清楚。
变形虫说莫妮卡(

4
@amoeba“”问题在于每种医学期刊中到处都有p值。通常在每条记录有均值,中位数或比例的行上都包含p值。“”它们通常是简单的Fisher精确检验或卡方检验以用于差异,询问汇总表的任何行是否有显着差异。隐含的假设是每一行都很重要。
2015年

2
我怀疑一个主要的推动力是p值给定的索赔给人一种对最终性的误导印象。这些期刊的出版商应该喜欢这一点,因为这意味着他们拥有在可预见的将来将有价值的信息。不资助或不建议进行重复研究的同时进行的文化还有助于最大程度地减少有争议的冲突结果的出现。我不知道如果人们最终意识到他们拥有的信息主要由“毫无意义的活动”(@glen_b的术语)组成。即使杂乱无章,...启发式告诉您要避免。
Livid

1
詹姆斯·摩尔:我在问同样的问题;这没有任何意义,但每天都会应用。[at] amoeba:我随机选择我所读的期刊之一,点击最新发表的文章后发现:onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl:好的,谢谢。@Momo:我现在已经在努力改善问题的表达方式。我认为这是一个重要的问题,感谢您的建议。[at] Livid:谢谢您的评论。实际上,许多研究人员可能误解了p值的全部含义。
亚当·罗宾逊

Answers:


29

显然,我不需要告诉您什么是p值,或者为什么过分依赖p是个问题;您显然已经足够了解这些内容。

在发布中,您面临两个竞争压力。

第一个-并且是每个合理机会都应争取的-是做有意义的事情。

第二,最终是需要实际发布。如果没有人看到您在改革可怕的实践方面所做的出色努力,那将毫无收获。

因此,与其完全避免:

  • 尽可能少地进行一些毫无意义的活动,直到它仍然发布

  • 如果您认为这会有所帮助,则可能会提及此最新的《自然方法》文章 [1],或者更好的一个或多个其他参考文献。至少应该有助于确定存在一些对p值至上的反对。

  • 考虑其他期刊,如果合适的话

其他学科也一样吗?

过度使用的p值的问题在许多学科中(这甚至可能是一个问题当出现一些假设),但在一些比其他人更常见。有些学科确实存在p值炎的问题,而引起该问题的问题最终会导致某种程度的过分反应 [2](在较小的范围内[1],至少在某些地方,还有其他一些地方)以及)。

我认为有多种原因,但是过分依赖p值似乎会产生其自身的势头-有人说“重要”,而拒绝人们似乎觉得很有吸引力的null。各种学科(例如,见[3] [4] [5] [6] [7] [8] [9] [10] [11])(都取得了不同程度的成功)正在与过度依赖p值(特别是 = 0.05)已经有很多年了,并且提出了许多不同类型的建议-并非所有我都同意,但是我提供了各种观点以使人们对人们不得不做的不同事情有所了解说。α

他们中的某些人主张着眼于置信区间,某些人主张着眼于效应大小,某些人主张贝叶斯方法,某些人主张较小的p值,某些人只是避免以特定方式使用p值,等等。关于替代方法有很多不同的观点,但是在它们之间有很多关于依赖p值的问题的材料,至少是通常这样做的方式。

依次参阅这些参考资料以获得更多参考资料。这只是一个示例-可以找到更多参考。一些作者给出了为什么他们认为p值很普遍的原因。

如果您确实想与编辑争论这一点,则其中一些参考可能会有用。

[1]哈尔西LG,柯伦-埃弗里特D.,Vowler SL&德拉蒙德GB(2015),
“ 该善变的P值产生不可再现的结果,”
自然-方法12,179-185 DOI:10.1038 / nmeth.3288
HTTP:// WWW .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow,D.和Marks,M.(2015),
社论,
基本和应用社会心理学37: 1-2–
http://www.tandfonline.com/loi/hbas20
DOI:10.1080 / 01973533.2015.1012991

[3] Cohen,J.(1990),《
我所学到的东西(到目前为止)》,
美国心理学家45(12),1304-1312。

[4] Cohen,J.(1994),
地球是圆形的(p <.05),
美国心理学家49(12),997-1003。

[5] Valen E. Johnson(2013),
《统计证据的修订标准》, PNAS,第1卷。110号 48,19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK(2010),
要相信什么:数据分析的贝叶斯方法
,认知科学趋势 14(7),293-300

[7] Ioannidis,J.(2005)
为什么大多数已发表的研究结果都是错误的,《
公共科学图书馆》(PLoS)医学。8月;2(8):e124。
doi:10.1371 / journal.pmed.0020124

[8] Gelman,A.(2013),《 P值与统计实践》,《
流行病学》,第一卷。1月24日,第一,69-72

[9] Gelman,A.(2013),
“ p值的问题在于如何使用它们”,
(讨论“捍卫P值”,Paul Murtaugh,生态学着),未发表,
http:// citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R.(2014),
统计错误:P值,统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠,
News and Comment,
Nature,Vol。506(13),150-152

[11] Wagenmakers E,(2007年),
一种解决p值普遍存在的问题的方法,《
心理通报与评论》 14(5),779-804


7
+1。我又读了本《自然方法》 [1]的论文,我不确定我是否非常喜欢它。他们本质上认为p值在低功率测试中可能会变化很大(另请参见youtube上的“ p值之舞”)-这当然是正确的,并且需要强调。他们得出结论,p值“不好”(标题听起来很刺耳),人们应该使用“好”的置信区间。但是,当然,在低功耗情况下,置信区间也非常可变!他们图6(左)的情况没有更好看我比上图2
阿米巴恢复莫妮卡说,

2
@amoeba我不会说我不同意你-我有很多不同意;但是,有些地方可能对OP有用。实际上,您已经使我想起了我打算做的但忘记了的更改。
Glen_b-恢复莫妮卡2015年

3
是的,尽管如此,我仍然同意潜在的用处-尤其是因为《自然方法》非常受人尊敬,以至于人们可能会被其“权威”说服。我只是想警告OP,不要将一切都视为理所当然(他们的数学还可以,我在这里谈论结论/解释)。
变形虫说恢复莫妮卡2015年

1
在这方面也很有趣的是威尔金森和统计推断工作组,《心理学期刊的统计方法》,《美国心理学家》,第1卷。54,1999
A. Donda

Glen_b,我在“ Fickle P”文件中发布了一个关于陌生人主张的问题:stats.stackexchange.com/questions/250269-非常感谢您的见解。
变形虫说恢复莫妮卡

10

p值或更普遍的零假设显着性检验(NHST)慢慢保持越来越少的价值。如此之多,以至于期刊开始被禁止使用。

即使p值在各处使用,大多数人也不了解p值真正告诉我们什么以及为什么它告诉我们这一点。

P(Data|H0)P(H0|Data)

H0H0


1
我要补充一点,P(H0 | data)仅在H0有意义时才有意义。研究的设计和报告方式必须排除偶然性之外的其他对结果无趣的解释(偏见,辍学,基线差异)。而且,即使是一个具有显着效果大小的完美盲RCT也只能告诉您已测量到一些有趣的东西。弄清楚您是否测量了您实际关心的事物,这是另一个经常被忽略的问题,同时也发现了对p值的痴迷。
Livid

8

其他学科也一样吗?迷恋p值的原因是什么?

Greenwald等。(1996)试图解决这个有关心理学的问题。至于也将NHST应用于基线差异,大概编辑者会(正确或错误地)决定“非重大”基线差异无法解释结果,而“重大”基线可以解释结果。这类似于Greenwald等人提供的“原因1”。:

为什么NHT仍然受欢迎?

“为什么NHT不会屈服于批评?由于缺乏更好的答案,因此很容易将NHT的持久性归因于行为科学家缺乏品格。行为科学家不愿放弃获得可能的虚假零假设拒绝可能带来的罪恶感。就像饮酒者不愿放弃餐前鸡尾酒的习惯一样……”

原因一:HT提供了二分结果

“由于p <.05转换为“具有统计意义的意义”的惯例已被广泛采用,因此NHT可以用于对零假设的问题做出二分式的回答(拒绝或不拒绝)。这通常被认为是作为对理论问题的有用答案,这些理论问题是根据预测的方向而不是根据参数的期望值来表示的。”

原因2:p值是测试统计数据有意义的通用语言翻译

“不同于可以直接从t,F或r值(及其相关的df)直接感知到的任何东西,ap值的惊奇程度只是通过其小数点右边的连续零个数字来捕获的……”

原因3:p值提供了对零假设拒绝的可复制性的置信度。

“ [N]类似于效应大小(或置信区间),由NHT得出的ap值与非空发现的可复制性的估计单调相关。在此陈述中,可复制性(在下面更正式地定义)旨在仅在其NHT重复重复不拒绝结论的意义上,而不是在其点或区间估算值之间接近的估算意义上。”

效应大小和p值:应该报告什么,应该重复什么?安东尼·格林沃德,理查德·冈萨雷斯,理查德·J·哈里斯和唐纳德·格特里。心理生理学,33(1996)。175-183。剑桥大学出版社。在美国印刷。版权所有O 1996心理生理研究学会


感谢您提供这些重要的评论,下次我一定会与评论者争论。
亚当·罗宾逊

6

P值提供了有关从两个总体中抽样的两组结果之间差异的信息(“处理”与“对照”,“ A”与“ B”等)。差异的性质在假设陈述中形式化,例如“ A的平均值大于B的平均值”。低p值表明差异不是由于随机变化引起的,而高p值表明不能将两个样本中的差异与可能仅由随机变化引起的差异区分开。p值的“低”或“高”在历史上一直是约定俗成的问题,而不是通过严格的逻辑或证据分析来确定的。

使用p值的先决条件是两组结果实际上是可比较的,即它们之间唯一的差异来源与您要评估的变量有关。举一个夸大的例子,假设您有两个时期的两种疾病的统计数据:A:1920-1930年英国监狱中男性霍乱死亡率,B:1960-1970年尼日利亚的疟疾感染。从这两套数据中计算出一个p值是很荒谬的。现在,如果A:未经治疗的英国监狱中的男子霍乱死亡率与B:经补液治疗的英国监狱中的男子霍乱死亡率,那么您就有了扎实的统计假设基础。

通常,这是通过仔细的实验​​设计,仔细的调查设计或仔细的历史数据收集等来完成的。而且,两个结果之间的差异必须形式化为涉及样本统计的假设陈述-通常是样本均值,但也可以是样本方差或其他样本统计数据。也可以使用随机优势来创建比较两个样本分布整体的假设陈述。这些很少见。

关于p值的争论集中在研究“真正重要的是什么”上?这就是效果大小出现的地方。基本上,效果大小是两组之间差异的大小。可能具有较高的统计显着性(低p值->并非由于随机变化),但效果大小也很低(幅度差异很小)。当效果尺寸很大时,允许较高的p值可能是可以的。

现在,大多数学科都非常努力地报告效果大小,并减小或最小化p值的作用。他们还鼓励对样本分布进行更具描述性的统计。包括贝叶斯统计在内的某些方法完全消除了p值。


我的回答简明扼要。您可以咨询有关此主题的许多文章,以获取更多详细信息,理由和具体信息,包括:


@MerMeritology感谢您提供这些重要参考。我会尽快阅读它们!
亚当·罗宾逊

6

“所以像我这样的外行人希望在没有假设的情况下找不到任何p值。”

隐含地,OP表示,在他提供的特定表中,没有假设伴随报告的p值。只是为了消除这种细微的混淆,肯定有零假设,但是它们却...被间接提及(为了节省空间,我想)。

“ p值”是一种条件概率,例如对于“右尾”检验,

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

TFT|H0(tH0)TH0t(S)TTH0TH0H0

因此,如果没有虚无假设甚至无法计算出p值,并且每当我们看到报告有p值时,虚假假设就会潜伏在某个地方。

在问题的表格中,我们阅读

“所有有关WHR三分位数差异的测试……”

零假设在此短语中是“隐藏的”:它是“ WHR三分位数之间没有差异”(无论“ WHR R三分位数”是什么),以其数学形式表示,此处似乎是两个量级的差等于零。


我同意这些分析背后可能存在假设。但是,那些详细阐述研究论文指南(例如STROBE声明)的人应该考虑p值的丰富性。我认为ap值应保留给论文的主要假设(很少有一个以上的假设)。但是,尽管如此,我不能说我不同意=)
Adam Robinsson

1
@AdamRobinsson嗯...我不太确定。这种“保留”的方法将(甚至更多)夸大p值检验对于得出结论的真正重要性。对我来说,这仅仅是一个结果,必须与许多其他方面,结果,样本外信息,逻辑等结合起来。另一方面,如果p值分散在整个位置,则是更容易意识到它们不是得出结论的明确标准。
Alecos Papadopoulos

Alecos我在表中读到了一些不同的内容,即WHR(即腰臀比)三分位数而不是WRT,而三分位数是将分布分为3部分的值,四分位数是分为4部分的值,十分之十。
Glen_b-恢复莫妮卡2015年

@Glen_b谢谢,这只是我的错字。固定它。
Alecos Papadopoulos

2
例如,请参阅此处。但可能不在这里
Glen_b-恢复莫妮卡2015年

2

我很好奇,并阅读了OP所举的例子:腹部肥胖会增加髋部骨折的风险。我不是医学研究员,通常不阅读医学论文。

p

pp

ppp

p

听起来好像该问题专门针对此类描述性表。如果是这样,这是医学杂志上的一些奇怪(但大多无害?)实践,由于传统而得以保留。


pn=43000


@amoeba我在rando选择了一篇文章;这是该杂志上流行病学的最新发表文章。我敢肯定,如果我搜索了更多内容,那么我本可以为文章提供更多无意义的p值。正如您所注意到的,这是一个p值炎,但从您以及上面和下面的其他答案来看,研究界似乎正在​​解决这个问题。
亚当·罗宾逊

@Adam,我喜欢您的问题(+1)和Glen_b的答案(+1),但是如果此“随机选择”的论文具有代表性,那么Glen_b提出的大多数观点以及他链接的大多数论文都不会适用或引用。您正在询问的医学研究情况。如果它不具有代表性,那我当然不能判断。
变形虫说恢复莫妮卡

的确,我的确多次获得您的帮助。我根据对这个问题的理解做出了判断。我相信所提供的所有答案都是有用的,它们可以共同回答问题。
亚当·罗宾逊

1

统计同行评审的水平不如我从我的经验中所想到的那样高。对于我研究过的所有应用论文,所有统计评论都来自应用领域的专家,而不是统计学家。对于“顶级”期刊,尽管要进行更严格的审查,但看到有严重缺陷的结果并不少见。我认为这部分是因为统计领域可能很困难(从许多伟大思想家之间的分歧可以看出)。

其次,某个领域的读者希望以某种方式看到事物。在最近的一次经验中,我绘制了模型中的概率图,但这被否决了,因为我的协作者正确地猜到了,他的读者会更喜欢原始数据的图表。总之,许多读者希望在基线特征表的旁边看到p值。

与您的直接问题无关,但可能相关:p值几乎使用频率论或似然法在每个文本中使用。作者经常做出巨大的贡献,并对统计进行了深思。尽管被实验者滥用,但他们肯定在统计中占有一席之地。


感谢您的评论。我可以使你的发言更进一步。我认为,由于各种原因,发表的发现中有很大一部分包含统计缺陷。我的主管经常说“审查过程是基于先生们的话”,我认为这很有趣。
亚当·罗宾逊

1

我不得不经常阅读医学文章,我觉得钟摆似乎正在从一种极端转向另一种极端,而不是停留在中央平衡区。

以下方法似乎效果很好。如果P值小,则观察到的差异不可能仅是偶然的。因此,我们应该查看差异的大小,并确定它是否具有任何实际意义。即使样本差异很小,P值也会随样本大小的增加而出现很小的变化,这可能与实际情况无关。

在基线数据表中不包括P值可能是不利的。因此,如果在一项研究中有两组平均年龄分别为54岁和59岁,那么我想知道这种差异是否仅仅是偶然的。如果P很小,那么我认为两组的5年差异是否会影响研究结果。如果P不小,我不必解决这个问题。

如果仅依靠P值而不检查差值的大小(例如,简单的百分比变化),就会出现问题。有些人认为应该完全省略P值,以便仅保留并看到差异。一个平衡的解决方案将是强调对这两者进行评估,而不是仅仅丢弃P值,因为P值的含义有限,但意义重大。效应大小也可能与P值紧密相关(就像置信区间一样),并且也不太可能完全将P值从统计角度上移开。如以下文章所述,原假设检验有许多优点,因此它仍然很受欢迎:

ANTHONY G. GREENWALD,RICHARD GONZALEZ,RICHARD J. HARRIS和DONALD GUTHRIE影响大小和p值:应该报告什么,应该重复什么?心理生理学,33(1996)。175-183。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.