p值的两个定义:如何证明它们的等价性?


11

我正在阅读拉里·瓦瑟曼(Larry Wasserman)的《所有统计》一书,目前正在阅读有关p值的信息(第187页)。首先让我介绍一些定义(我引用):

定义1的拒绝区域中的试验的幂函数R由下式定义

β(θ)=Pθ(XR)
的测试的大小被定义为 如果测试的大小小于或等于\ alpha,则称该测试具有\ alpha级别。
α=supθΘ0β(θ)
αα

这基本上说α,大小是类型I的错误的“最大”概率。然后通过(I quote)定义p值。

定义2假设对于每个α(0,1)我们都有一个带有拒绝区域R_ \ alpha的大小α测试。然后, p \ text {-value} = \ inf \ {\ alpha:T(X ^ n)\ in R_ \ alpha \} 其中X ^ n =(X_1,\ dots,X_n)Rα

p-value=inf{α:T(Xn)Rα}
Xn=(X1,,Xn)

对我来说,这意味着:给定特定的α有一个测试和拒绝区域Rα以便α=supθΘ0(α)Pθ(T(Xn)Rα)。对于p值,我只需取所有\ alpha中的最小值即可α

问题1如果是这种情况,那么对于任意小的,我可以清楚地选择。我对定义2的错误解释是什么,即它的确切含义是什么?εα=ϵϵ

现在,Wasserman连续并陈述了一个定理,以具有我所熟悉的值的“等效”定义(我引用):p

定理假设大小检验的形式为 然后, 其中,是的观测值。拒绝  H 0α p -值= SUP θ ∈ Θ 0 P θŤ X ÑŤ X ÑX Ñ X Ñ

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

所以这是我的第二个问题:

问题2我实际上如何证明这个定理?也许是由于我对值的定义有误解,但我无法弄清楚。p


4
这是正奇怪的是沃瑟曼将定义功率为“ ”,因为符号几乎普遍用于II型误差率(即功率= 1-对几乎任何其他作者讨论功率)。我发现很难想象有一种选择会引起更严重的混乱,除非故意着手引起这种混乱。βββ
Glen_b-恢复莫妮卡

1
我同意格伦的观点,这很奇怪。但是,卡塞拉和伯杰做同样的事情,我认为它们的文字是统计理论的黄金标准。
马特·布雷姆斯

Answers:


6

我们有一些多元数据,它是从分布提取的,带有未知参数。请注意,是样本结果。d θ XxDθx

我们要测试的有关未知参数的一些假设,值的零假设下是在设置。θ θ 0θθθ0

在的空间中,我们可以定义一个拒绝区域,然后将该区域定义为。因此电源被计算为一个特定的值作为概率样品结果是在排斥区域时的值就是。显然,功率取决于区域和所选的。- [R [R P - [R ˉ θ = P ˉ θX [R ˉ θ θ X - [R θ ˉ θ ř ˉ θXRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

定义1个定义该区域的大小R为所有值上确界为在,所以只对的值。显然,这依赖于区域,所以。 ˉ θ θ 0 ˉ θ ħ 0 α - [R = 小号ü p ˉ θ∈ θ 0 P - [R ˉ θPθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

因为取决于,所以当区域改变时,我们还有另一个值,这是定义p值的基础:改变区域,但以这样的方式,样本观察值仍属于该区域,对于每一个这样的区域,计算所述如上定义,采取下确界:。因此,p值是所有包含区域的最小大小αRRαRpv(x)=infR|xRαRx

该定理只是其“平移”,即使用统计量定义区域的情况,对于值您将区域定义为。如果在上述推理中使用这种类型的区域,则遵循定理。RTcRR={x|T(x)c}R

由于评论而编辑:

@ user8:定理;如果定义拒绝区作为定理,则尺寸的拒绝区域是一组的模样- [R α = { X | Ť X Ç α }一些Ç ααRα={X|T(X)cα}cα

要找到观测值p值,即p v x ,必须找到最小的区域R,即c的最大值,使得{ X | 牛逼X c ^ }仍然包含X,后者(该区域包含X)等价(因为被限定的区域的方式)来说,Ç 牛逼X ,所以你必须找到最大的Ç这样即{ X | Ťxpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

显然,最大使得Ç Ť X Ç = Ť X ,然后将组同上变为{ X | Ť X Ç = Ť X } = { X | Ť X Ť X }ccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


非常感谢您的回答。对于有关定理验证的问题:是否不存在因α缺失的infα
2015年

@ user8:我在答案的末尾添加了一个段落,您现在看到的重点是什么?

7

在定义2中,检验统计量的值是所有α的最大下限,因此对于大小为α的检验拒绝该假设。回想一下,我们做α,对于我们允许类错误少宽容,从而拒绝域[R α也将减小。因此(非常)非正式地讲,p值是我们可以选择的最小α值,但仍使我们拒绝观察到的数据为H 0。我们不能武断地选择较小的α,因为在某些时候,[R αpαααRαpαH0αRα 会很小,以至于它将排除(即无法包含)我们观察到的事件。

现在,鉴于上述情况,我邀请您重新考虑该定理。


我还是有点困惑。首先,在定义中,对所有α固定的统计量T是否固定?我不同意你的说法:“......在某些时候,[R α将是如此之小,它会排除(即不包含)我们观察到的情况。” 完全正常,如果- [R α是如此之小,它不包含所观察到的样品中,我们不拒绝ħ 0。这是什么问题?谢谢您的帮助/耐心等待2TαRαRαH0
数学

是。测试统计量是样本的预定固定函数,其中“固定”在这种意义上意味着该函数的形式对于任何α都不会改变。它所取的值可能(并且应该)取决于样本。您的发言:“我们不反对^ h 0 ”,揭示为什么你的意见分歧是不正确的: 根据定义[R α包括集合中的所有值的该检验统计量导致拒绝零的。这就是为什么将其标记为R代表 “ R”弹出。我将发布更新的答案以更详细地进行解释。TαH0RαR
heropup 2015年

非常感谢您的快速回答,并提前提供了更新版本。我的意思是以下情况:我们拒绝如果Ť X Ñ[R α,其中X Ñ是所观察到的样品。说我非常极端和选择ř α非常小,因此,对于给定的样品Ť X Ñ- [R α其中只是意味着我们不拒绝ħ 0。因此,一个小的- [R αH0T(xn)RαxnRαT(xn)RαH0Rα当然不是一件坏事。显然,在一个点上它是如此之小,这是非常非常非常不可能观察属于样本。再次感谢您的耐心/帮助。非常感谢!Rα
数学

2
给定的p值定义明确要求样品的检验统计量在拒绝区域内。您不能随意更改p值定义的这一部分。
Glen_b-恢复莫妮卡2015年

@Glen_b感谢您的评论。确实,我之前的评论确实违反了定义。感谢您指出。
数学
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.