比较和对比,p值,显着性水平和I型错误


21

我想知道是否有人可以简要介绍p值的定义和使用,显着性水平和I类错误。

我了解p值的定义是“获得至少与我们实际观察到的数据一样极端的测试统计信息的概率”,而显着性水平只是用来衡量p值是否有意义的任意临界值。 。I类错误是拒绝原假设为零的错误。但是,我不确定重要性级别和I类错误之间的区别,这是不是一个相同的概念?

例如,假设有一个非常简单的实验,我将硬币掷1000次并计算它落在“头”上的次数。我的零假设H0是正面= 500(无偏硬币)。然后,将我的显着性水平设置为alpha = 0.05。

我将硬币翻转1000次,然后计算p值,如果p值> 0.05,则我无法拒绝原假设,如果p值<0.05,则我拒绝原假设。

现在,如果我重复进行此实验,每次计算p值,或者拒绝或未能拒绝原假设,并保持对我拒绝/失败拒绝的计数,那么我最终将拒绝5%的原假设实际上是正确的,对吗?这是类型I错误的定义。因此,如果执行重复实验,Fisher重要性检验中的重要性水平实质上就是Neyman-Pearson假设检验中的I型错误。

现在关于p值,如果我从上一个实验中获得了0.06的p值,并且我进行了多次实验并计算了所有从0到0.06得到p值的值,那么我也将没有拒绝真实零假设的可能性为6%?

Answers:


16

这个问题看起来很简单,但是您对它的思考表明,它并不是那么简单。

实际上,p值是统计理论中相对较晚的补充。在没有计算机的情况下计算p值非常繁琐。这就是为什么直到最近才执行统计测试的唯一方法是使用统计测试表,正如我在此博客文章中所解释。由于这些表是针对固定水平(通常为0.05、0.01和0.001)计算的,因此您只能使用这些水平进行测试。α

计算机使这些表无用,但是测试的逻辑仍然相同。你应该:

  1. 提出零假设。
  2. 提出另一种假设。
  3. 确定您准备接受的最大I类错误(错误拒绝无效假设的概率)错误。
  4. 设计一个拒绝区域。假设零假设是您的水平,则检验统计量落入拒绝区域的可能性。正如@MånsT所解释的,这应该不小于您可以接受的I类错误,并且在许多情况下使用渐近逼近。α
  5. 进行随机实验,计算测试统计量,并查看其是否在拒绝区域内。

从理论上讲,事件“统计量落在拒绝区域”“ p值小于α之间存在严格的等价关系,这就是为什么您可以改为报告p值的原因。实际上,它允许您跳过步骤3,并在测试完成后评估类型I错误。

回到您的帖子,原假设的陈述是不正确的。零假设在于翻转头的概率为(零假设不能涉及的随机试验的结果)。1个/2

如果您以0.05的阈值p值一次又一次地重复实验,是的,您应该有大约 5%的拒绝率。而且,如果您将p值截止值设为0.06,则最终的拒绝率约为6%。更一般而言,对于连续测试,通过定义p值p

P[RØbp<X=X0<X<1个

这仅适用于离散测试。

这是一些R代码,我希望可以澄清一下。二项式测试相对较慢,因此我只进行10,000次随机实验,其中可以翻转1000个硬币。我执行二项式检验并收集10,000个p值。

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

您会发现比例并不精确,因为样本数量不是无限的,并且测试是离散的,但是两者之间仍然有大约1%的增长。


@MånsT谢谢!+1为您区分连续测试和离散测试(实际上我会完全忽略)。
gui11aume12年

4
@ gui11aume,谢谢您的输入!但是,您的陈述“ p值是统计理论的相对较晚的补充”很奇怪。根据我的阅读,费舍尔的带有p值的“显着性检验”起源于1925年左右。而内曼·皮尔森的“假设检验”则是几年后费舍尔工作的一种“改进”。虽然确实很难计算p值(因此使用了标准的显着性水平),但他的工作具有里程碑意义。实际上,他被称为“统计之父”,因为他构成了许多现代统计的基础。
BYS2

2
@ BYS2绝对正确(+1)。p值的理论可以追溯到统计学的起源。它们是最近的普遍使用。感谢您注意到;-)
gui11aume12年

@guillaume对此表示感谢,不过我还有另一个快速问题。您说我的零假设不能为H 0 = 500,但是我似乎使用了很多文本,例如:无假设是均值将为0或均值差将为10。我从来没有遇到过任何问题如果我使用H0 = 500而不是H0 = 0.5,则t分布实际上只是按比例缩放
BYS2 2012年

1
@ gui11aume:也许这可能是有趣的,看看我的回答:stats.stackexchange.com/questions/166323/...

15

您可以从@MansT和@ gui11aume(每个+1)获得很好的答案。让我看看我能否在他们的两个答案中都得到更明确的说明。

ñķ

pķ=ñķñ-ķpķ1个-pñ-ķ
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021α我输入错误α.05二项式概率。还要注意,这种情况已经促使中间p值的发展,以帮助最小化p值和显着性水平之间的差异。

有可能是,将所计算的p值也病例等于长期型错误率,除了一个事实,即I型错误率不一定等于显着性水平。考虑具有以下观察到的计数的2x2列联表:

     col1 col2
row1   2    4   
row2   4    2

χ2χ1个2=1.3p=.248χ2χ2p=.5671.5637.5671

因此,这里的问题是离散数据:

  • 您首选的显着性水平可能不是I型错误率之一,
  • 使用(常规)近似值进行连续统计将得出不正确的计算p值。

ñ

(尽管问题并没有询问这些问题的解决方案),有些事情可以缓解这些问题:

  • ñ
  • 通常会有一些修正(例如Yates的连续性修正)会使计算值更接近正确值,
  • ñ
  • 中等的p值可以使您的I型错误率更接近您选择的置信度,
  • 您可以显式使用现有的I型错误率之一(或注意这会是什么)。

太好了,您进入了我们留在侧面(+1)的细节。
gui11aume12年

@gung-您能否评论一下如何获得第一张桌子的I型错误率?
stats134711

@ stats134711,它只是极端或极端(2尾)期权的各个概率的总和。
gung-恢复莫妮卡

14

这些概念确实彼此紧密联系。

PŤÿpË 一世 Ë[R[RØ[R=ααPŤÿpË 一世 Ë[R[RØ[RααPŤÿpË 一世 Ë[R[RØ[Rαα

p值是可以接受零假设最低显着性水平。因此,它告诉我们结果的“重要性”。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.