假设检验中p值的解释


36

我最近碰到了杰夫·吉尔(Jeff Gill)(1999)的论文“零假设假设意义检验的无意义”。作者对假设检验和p值提出了一些常见的误解,对此我有两个具体问题:

  1. p值从技术上讲是,正如论文所指出的,通常不会告诉我们有关,除非我们碰巧知道边际分布,否则在“日常”假设检验中很少出现这种情况。当我们获得一个小的p值并“拒绝原假设”时,由于我们无法说出有关任何信息,我们正在做的概率陈述到底是什么?P H ^ 0 | ö b 小号Ë - [R v 一个ö ÑP H ^ 0 | ö b 小号Ë - [R v 一个ö ÑP(observation|H0)P(H0|observation)P(H0|observation)
  2. 第二个问题与论文第6(652)页的特定陈述有关:

由于没有事先设定p值或星号指示的p值范围,因此它不是产生I型错误的长期可能性,而是通常被视为此类错误。

任何人都可以帮助解释此声明的含义吗?


TY供本文参考
Ludovic Kuty 2013年

@ezbentley:也许我会回答一个问题:stats.stackexchange.com/questions/166323/…–

Answers:


33

(从技术上讲,P值是在假设为零的前提下,观察数据至少与实际观察到的数据一样极端的概率。)

Q1。根据较小的P值决定否定原假设的决定通常取决于“费舍尔析取”:要么发生了罕见事件,要么原假设为假。实际上,事件的稀有性是P值告诉您的,而不是null为假的概率。

只能通过贝叶斯定理从实验数据中获得零为假的概率,这需要指定零假设的“先验”概率(大概是吉尔所说的“边际分布”)。

Q2。问题的这一部分比看起来要难得多。关于P值和错误率,有很多困惑,大概是吉尔所指的“但通常被这样对待”。Fisherian P值与Neyman-Pearsonian错误率的组合被称为不相干的杂烩,不幸的是它非常普遍。这里没有一个简短的答案是完全足够的,但是我可以为您指出几篇好论文(是的,其中一篇是我的)。两者都将帮助您理解the纸。

Hurlbert,S.和&Lombardi,C.(2009)。Neyman-Pearson决策理论框架的最终崩溃和neoFisherian的兴起。Annales Zoologici Fennici,46(5),311–349。(链接到纸张)

路易斯·MJ(2012)。药理学(和其他基本生物医学学科)的不良统计实践:您可能不认识P.英国药理学杂志,166(5),1559-1567。doi:10.1111 / j.1476-5381.2012.01931.x (链接到纸张)


感谢您的澄清。做这样的陈述在技术上是不正确的"the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"吗?混淆的根源似乎是,当我们说零被“拒绝”时,没有对零假设提出任何真实的概率主张。

2
@ezbentley,这实际上取决于您的意思。在大多数情况下,该词并不是很有意义,因为它已被Fisher-Neyman-Pearson混合污染。如果您获得了非常小的P值,那么可以说真实的均值可能不为零,但是重要的是要说出观测到的均值是什么,并指出其变异性(SEM或置信区间),并且不要不要忘记说样本量是多少。P值不能替代指定的观察效果大小。
Michael Lew

谢谢你的解释。我需要更深入地研究Fisher和Neyman-Pearson范例。

@迈克尔卢:也许这可能是有趣的,看看我的回答:stats.stackexchange.com/questions/166323/...

您在第一季度下的段落可能是到目前为止我所见问题的最佳解释。谢谢。
Maxim.K

22

+1 @MichaelLew,后者为您提供了一个很好的答案。也许我仍然可以通过提供一种思考第二季度的方式做出贡献。请考虑以下情况:

  • 零假设是正确的。(请注意,如果原假设成立,则不可能发生类型I错误,并且不清楚值的含义。) p
  • 0.05α通常设置为。 0.05
  • 计算得出的值为。 0.01p0.01

现在,获得比您的数据极端更极端的数据的概率为1%(这就是值的意思)。您已经拒绝了原假设,从而导致了I型错误。在这种情况下,长期I型错误率也为1%,这是真的吗?许多人可能会凭直觉得出结论?答案是否定的。原因是,如果您获得的值,您仍然会拒绝null。实际上,即使为,您也将拒绝null ,从长远来看,会达到这个大水平p p 0.02 p 0.04 ˉ 9 p 听,说:αp0.02p0.049¯p5%的时间,所有此类拒绝都会是I型错误。因此,长期I型错误率是5%(您已将设置为)。 α

(披露:我尚未阅读Gill的论文,因此我不能保证这就是他的意思,但确实有理由认为值[不一定]与长期I型错误率相同。 )p


1
在经常很难相信假设H_0 = 0实际上是正确的领域(epi)上工作,我认为这一点被忽略了,值得更多关注。
boscovich

1
只是为了确保我的理解是正确的。P值本身是一个随机变量,类型I错误是该随机变量小于的概率。这是正确的吗?α

1
+1,但是当null为false时,P值的含义不清楚的建议具有误导性。P值越小,零值和观察值之间的差异越大。样本数量越大,可以认为真实效果大小与观察到的效果大小越接近。值得注意的是,重要性检验与估算类似。
Michael Lew 2013年

3
@MichaelLew,我不确定p值本身就是这些意思。结合w / N(特别是保持N恒定),较小的p将对应于较大的差异b / t,即无效。即便如此,这更多的还是可以从p推断出来的,而不是p的意思。确实,观察到的较大的N效应值应该更接近真实的ES,但我不清楚p在其中起什么作用。EG,带有错误的空值,真实效果可能仍然很小,而带有较大的N,我们希望观察到的ES接近,但p可能仍然很大。
gung-恢复莫妮卡

1
@gung,我正在阅读Hubbard撰写的这篇论文<ftp.stat.duke.edu/WorkingPapers/03-26.pdf>。在第12页上,他指出...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"我认为I型错误恰恰是如果null为真,则p值小于的概率。那么,为什么哈伯德说引用的陈述是谬论呢?我是否以某种方式曲解了它?α

8

我想发表与“零假设重要性检验的微不足道”有关的评论,但未回答OP的问题。

我认为,主要问题不是对值的误解。例如,许多从业人员经常测试“显着差异”,但他们错误地认为,显着差异意味着存在“大”差异。更准确地说,它们是在具有形式的“精确”零假设的上下文中。当即使对于很小的当样本量增加时,该假设也将被拒绝。但在现实世界中,有一个小的没有什么区别和(我们说有等价一个小间和H 0 H 0{ θ = 0 }pH0H0:{θ=0}ε ε 0 ε 0θ=ϵϵϵ0ϵ0并且在这种情况下必须进行等效测试)。


3
+1是,传统假设检验的真正问题是它回答了您对回答并不真正感兴趣的问题,即“是否有明显的差异证据?”,而不是“是否有明显的差异证据? ”。当然,通常真正需要的是“我的研究假设是正确的概率是多少?”,但这不能在常人论框架内得到回答。误解通常是由于尝试以贝叶斯术语来对待频繁性测验而引起的。
迪克兰有袋博物馆,2013年

1
区分P值和样本大小的含义不是一个好主意。较小的P值表示在任何特定样本大小下的较大效果大小,对于任何特定的P值,较大的样本量表示实际效果大小可能更接近观察到的效果大小。重要性测试应在估计的背景下考虑,而不是错误。较大的样本总是会提供更多信息-如何解释它取决于实验者。对于Neyman-Pearsonian假设检验,大样本可忽略不计的效果投诉只是一个问题。
Michael Lew 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.