了解p值


33

我知道有很多材料可以解释p值。但是,如果不进一步澄清,很难轻易牢牢把握这个概念。

这是Wikipedia中p值的定义:

p值是假设零假设为真,则获得至少与实际观察到的极端一样的检验统计量的概率。(http://en.wikipedia.org/wiki/P-value

min[P(X<x),P(x<X)],如果统计量的PDF是单峰的,则是检验统计量,而是其从观察中获得的值。这是正确的吗?如果正确,使用统计的双峰PDF是否仍然适用?如果PDF的两个峰很好地分开,并且观测值在两个峰之间的低概率密度区域中的某个位置,则p值给出哪个概率?XXx

第二个问题是关于从钨MathWorld p值的另一种定义:

变量严格地偶然采用大于或等于观察值的概率。(http://mathworld.wolfram.com/P-Value.html

我了解到“严格地偶然”一词应解释为“假设无效假设”。那正确吗?

第三个问题关于使用“零假设”的。假设有人要坚持认为硬币是公平的。他表达了这样的假设,即头部的相对频率为0.5。那么零假设是“磁头的相对频率不是0.5”。在这种情况下,尽管难以计算原假设的p值,但对于替代假设而言,计算却很容易。当然,可以通过互换两个假设的作用来解决问题。我的问题是,直接基于原始替代假设的p值(不引入无效假设)的拒绝或接受是可以的。如果还不行,那么在计算原假设的p值时针对此类困难的通常解决方法是什么?




我发布了一个新问题,该问题根据该主题中的讨论得到进一步阐明。



2
可能感兴趣的

14
您已经发现了一个微不足道的东西,而这通常是无法被识别的:“更极端”需要根据替代假设相对可能性来衡量,而不是根据在零采样的尾部显得明显(但通常不正确)的感觉来衡量。分配。这在Neyman-Pearson引理的表述中是明确的,该表述可用来证明许多假设检验的合理性,并确定其关键区域(并由此推论其p值)。仔细考虑这将有助于回答您的第一个问题。
ub

1
我记得,对于简单假设检验与简单假设检验(Ho:mu = mu_0,Ha:mu = mu_a),Neyman-Pearson引理是最佳的。对于复合测试(Ho:mu = mu_0,Ha:mu> mu_a),存在替代测试。
RobertF 2012年

Answers:


17

第一个答案

您必须从测试统计的概率而不是从其值或被测试的随机变量的值考虑极端的概念。我从Christensen,R.(2005)报告以下示例。测试Fisher,Neyman,Pearson和Bayes美国统计学家,59(2),121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

在这里是观测值,第二行是在零假设θ = 0下观察给定观察值的概率,此处用作检验统计量,第三行是p值。我们在Fisherian检验的框架中:有一个假设(H 0,在这种情况下为θ = 0),在该假设下我们要查看数据是否怪异。概率最小的观察值为2和3,每个观察值为0.5%。举例来说,如果您获得2,则观察到某事物可能性可能性或可​​能性较小的概率(r = 2r = 3rθ=0pH0θ=0r=2r=3)是1%。观测值距离p值较远(如果存在阶数关系),但对p值没有影响,因为它具有较高的观测概率。r=4p

此定义通常适用,因为它可以容纳未定义顺序关系的类别变量和多维变量。对于ingle定量变量,您可能会从最可能的结果中观察到一些偏差,因此计算单尾 值并仅考虑检验统计量分布一侧的观察值可能是有意义的。p

第二个答案

我完全不同意Mathworld中的这个定义。

第三个答案

我必须说我不确定您是否理解了您的问题,但是我将尽力提供一些可能对您有所帮助的意见。

在Fisherian测试的最简单上下文中,您只有零假设,这应该是现状。这是因为Fisherian测试基本上是矛盾的。因此,就硬币而言,除非您有其他不同的想法,否则您将假定它是公平的,。然后,您为下的数据计算值,如果值低于预定义的阈值,则您拒绝该假设(通过矛盾证明)。您永远不会计算零假设的概率。p H 0 pH0:θ=0.5pH0p

使用Neyman-Pearson检验,您可以指定两个备选假设,并根据它们的相对可能性和参数向量的维数,选择一个或另一个。例如,在测试有偏与无偏硬币的假设时可以看到这一点。无偏意味着将参数固定为(此参数空间的维数为零),而有偏可以是任何值(维等于1)。如另一位使用者所解释的,这解决了试图通过矛盾来与偏见的假设相矛盾的问题,这是不可能的。当样本很大时,Fisher和NP会给出相似的结果,但是它们并不完全相等。在下面的R中,一个简单的代码代表有偏见的硬币。θ 0.5θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
+1指出我不知道的精彩文章。(也有人对Mathworld的统计视图的实用性表示了非常需要的怀疑)。
conjugateprior

非常感谢你!因此,p值是\ int_ {x:f(x)<= k} f,其中f是检验统计量的PDF,而k是统计量的观察值。再次感谢你。
JDL 2012年

关于第三个答案,您的答案中所证明的是硬币的不公平性,因为公平性假设被拒绝了。相反,为了通过矛盾证明硬币的公平性,我必须假设不公平性\ theta \ neq 0.5并计算我的数据的p值。我该怎么做?我的观点是,这种困难源于不公平假设的\ neq符号。我是否必须引入一些公平的公差水平,例如0.4 <\ theta <0.6,并根据\ theta计算p值,并将其积分到0 <\ theta <0.4和0.6 <\ theta <1上?
JDL 2012年

还有一个问题。此链接说明“单面” p值。它说单面p值回答了诸如“零假设,两个种群确实是相同的……等问题……随机选择的样本具有与本实验中观察到的相差甚远(或更远)的均值的机会?指定的组具有更大的平均值?” 是否适当使用单侧p值?我认为在这种情况下,原假设本身应表示为不平等(而不是平等和单方面检验)。
JDL 2012年

1
@Zag,我不同意,而这样的回答:你不要概率的角度考虑极端的概念。更好地说,在此示例中,将null下的概率用作检验统计量-但这不是强制性的。例如,如果将whuber提到的似然比用作检验统计量,则通常不会将可能的样本以与零概率下的概率相同的顺序放置。选择其他统计信息是为了针对指定的替代方案或所有替代方案获得最大功率,或者针对模糊定义的集合获得高功率。
Scortchi-恢复莫妮卡

8

(1)统计量是您可以从样本中计算出的数字。它用于对您可能获得的所有样本进行排序(在假定的模型下,硬币不会落在其边缘以及您拥有什么)。如果是从实际样本中计算出的值,&T是相应的随机变量,则p值由 在零假设。原则上,“大于”与“更极端”并不重要。对于法线均值的双向测试,我们可以使用 但是使用 因为我们有适当的表格。(请注意加倍。)tTħ 0Pr(Tt)H02 分钟[ P - [R Ž Ž P - [R Ž Ž ]Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)]

在原假设下,不需要检验统计量按概率对样本进行排序。在某些情况下(例如Zag的示例),其他任何方法似乎都是错误的(没有更多关于度量,与什么样的差异最令人感兴趣的信息,等等),但是经常使用其他标准。因此,您可以使用双峰PDF获取测试统计信息,并仍使用上述公式测试。H 0 H 0rH0H0

(2)是的,它们表示在下。H0

(3)诸如“正面频率不为0.5”之类的零假设是没有用的,因为您将永远无法拒绝它。它是一个复合空值,其中包括“磁头的频率为0.49999999”,或者尽可能接近。不管您是否事先认为硬币是否公平,您都会选择一个有用的零假设来解决这个问题。实验之后,可能更有用的是计算磁头频率的置信区间,以表明您显然不是一个公平的硬币,或者它足够接近公平,或者您需要进行更多的试验来找出答案。

(1)的插图:

假设您要测试10次抛硬币的公平性。有可能的结果。这是其中的三个:210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

您可能会同意我的观点,即前两个看起来有点可疑。然而,空值下的概率是相等的:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

要到达任何地方,您需要考虑要测试的null替代类型。如果您准备在null和替代情况下假设每次掷球都是独立的(&在实际情况下,这通常意味着非常努力地确保实验试验是独立的),则可以将杆头总数用作测试统计信息而不会丢失信息。(以这种方式对样本空间进行分区是统计学所做的另一项重要工作。)

所以你的计数在0到10之间

t<-c(0:10)

其在null下的分布为

p.null<-dbinom(t,10,0.5)

在最适合数据的替代版本下,如果您看到(说)十分之三的概率,则概率为,因此310

p.alt<-dbinom(t,10,t/10)

取null下的概率与替代方案下的概率之比(称为似然比):

lr<-p.alt/p.null

与之比较

plot(log(lr),p.null)

因此,对于此null,两个统计顺序的采样方式相同。如果您以0.85的零值重复(即测试磁头的长期运行频率为85%),则不会。

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

LRT GOF测试

看看为什么

plot(t,p.alt)

在替代方案中,某些值不太可能,并且似然比检验统计量已将此考虑在内。注意:此测试统计数据对于t

HTHTHTHTHT

很好-从某些角度来看,每个样本都可以视为极端。您可以根据与您希望能够检测到的null的差异类型选择测试统计信息。

……继续这种思路,您可以定义一个统计数据,对样本空间进行不同的划分,以测试相同的空值,而不用一枚硬币抛掷影响另一枚硬币。调用运行次数,这样r

HHTHHHTTTH

具有:r=6

HH T HHH TTT H

可疑的顺序

HTHTHTHTHT

有。也是r=10

THTHTHTHTH

而在另一个极端

HHHHHHHHHHTTTTTTTTTT

有。使用空值下的概率作为检验统计量(您喜欢的方式),您可以说样本的p值r=1

HTHTHTHTHT

因此为。值得注意的是,将该测试与之前的测试进行比较,即使您严格遵守空值下概率给出的排序,定义测试统计量以划分样本空间的方式也取决于对替代方法的考虑。41024=1256


您说定义Pr(T \ ge t; H_0)可以适用于测试统计信息的任何多峰(当然包括双峰)PDF。然后,您和Zag为测试统计信息的多峰PDF给出不同的p值。恕我直言,Zag的定义更合理,因为正如他指出的那样,p值的作用是量化观察值在原假设下的可能性(或怪异)。您对Pr(T \ ge t; H_0)定义的依据是什么?
JDL 2012年

@JDL,这只是一个p值的定义。然后,问题就变成了如何找到“良好”的测试统计数据(以及如何定义“良好”)。有时将空值(或给出相同顺序的数据的任何函数)下的概率用作检验统计量。有时,有充分的理由选择其他人,这在理论统计的书籍中占据了很大的空间。我认为可以说它们涉及对替代方案的明示或暗示考虑。...
Scortchi-恢复莫妮卡

@JDL,...如果一个特定的观察下具有低概率空和替代似乎有理由把它当成极端。
Scortchi-恢复莫妮卡

感谢您的回答,@ Scortchi。我发布了一个新问题,发布后立即看到了您的评论。无论如何,我仍然不清楚这个定义。再次感谢您的友好回答。
JDL 2012年

我添加了一个插图
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.