给定一个观察值的方差的置信区间


25

这是“第七届柯尔莫哥洛夫概率论奥林匹克竞赛”中的一个问题:

给定一个来自分布的观测值X,且两个参数均未知,请给出的置信区间,置信度至少为99%。Normal(μ,σ2)σ2

在我看来,这应该是不可能的。我有解决方案,但尚未阅读。有什么想法吗?

我将在几天后发布解决方案。

[后续编辑:官方解决方案发布在下面。Cardinal的解决方案更长,但提供了更好的置信区间。也感谢Max和Glen_b的投入。]


1
对我来说似乎也是不可能的。我等待答案
彼得·弗洛姆-恢复莫妮卡


3
这是格式更好的论文:paper
假设正常的2012年

h 我记得很多年前读过一篇关于这种东西的论文(一个观察间隔)。可能就是这个
Glen_b-恢复莫妮卡(Monica)2012年

1
@Max,感谢您的链接!我还没有时间仔细研究它,但是我会的。我在下面发布了“官方”答案。
乔纳森·克里斯坦森

Answers:


17

从概率不平等和与多次观测的联系的角度来看,这个结果似乎并非不可能,或者至少看起来更合理。

XN(μ,σ2)μσ2是未知的。我们可以写出X=σZ+μZN(0,1)

主权利要求[0,X2/qα)(1α)为置信区间σ2,其中qαα与一个自由度的卡方分布的-电平位数。此外,由于该间隔在μ = 0时具有精确的 (1α)覆盖率,因此它是形式为[ 0 b X 2的最窄间隔μ=0[0,bX2)对于一些bR

乐观的理由

回想一下,在n2的情况下,与T=i=1n(XiX¯)2,则典型 (1α)置信区间σ2

(Tqn1,(1α)/2,Tqn1,α/2),
其中qk,a是具有 k个自由度的卡方的a级分位数。当然,对于任何 μ都成立。虽然这是最流行的间隔(出于明显的原因称为等尾间隔),但它既不是唯一的间隔,也不是宽度最小的间隔!显而易见,另一个有效选择是 0 Tkμ
(0,Tqn1,α).

因为,,然后 0 Σ Ñ = 1 X 2 Ti=1nXi2 也具有至少1 - α )的覆盖范围。

(0,i=1nXi2qn1,α),
(1α)

鉴于此,我们可能会乐观地认为,对于,主索赔中的间隔为true 。主要区别在于,对于单个观察而言,不存在零自由度卡方分布,因此我们必须希望使用单自由度分位数将起作用。n=1

到达目的地半步利用右尾巴

在深入研究主要主张的证据之前,让我们首先看一下初步主张,该初步主张在统计上不那么强大或令人满意,但是也许可以为正在发生的事情提供更多的见解。您可以跳至下面的主要索赔证明,而不会造成太多(如果有)损失。在本节和下一部分中,证明(虽然有些微妙)仅基于基本事实:概率的单调性,正态分布的对称性和单峰性。

辅助权利要求1 - α 为置信区间σ 2只要α > 1 / 2。这里ž αα标准正常的-电平位数。[0,X2/zα2)(1α)σ2α>1/2zαα

证明| σ ž + μ | d = | - σ ž + μ | 由对称性,所以在下文中,我们可以采取μ 0不失一般性。现在,对于θ 0μ 0P| X | > θ PX > θ |X|=|X||σZ+μ|=d|σZ+μ|μ0θ0μ0 并因此与 θ = Ž α σ,我们可以看到, P0 σ 2 < X 2 / Ž 2 α1 - α

P(|X|>θ)P(X>θ)=P(σZ+μ>θ)P(Z>θ/σ),
θ=zασ 这仅适用于 α > 1 / 2,因为这是所需要的用于 Ž α > 0
P(0σ2<X2/zα2)1α.
α>1/2zα>0

这证明了辅助主张。虽然是说明性的,但从统计角度来看并不能满足要求,因为它需要大得惊人的才能起作用。α

证明主要主张

对以上参数进行细化可以得出适用于任意置信度水平的结果。首先,请注意 设置一个= μ / σ 0 b =

P(|X|>θ)=P(|Z+μ/σ|>θ/σ).
a=μ/σ0。然后, P| ž + 一个| > b = Φ - b + Φ - - b b=θ/σ0 如果我们可以证明对于每个固定的 b,右侧的 a都增加,那么我们可以采用与前一个参数类似的参数。这至少是合理的,因为我们希望相信,如果均值增加,则我们更有可能看到一个模数超过 b的值。(但是,我们必须注意左尾质量减少的速度!)
P(|Z+a|>b)=Φ(ab)+Φ(ab).
abb

。然后 ˚F bfb(a)=Φ(ab)+Φ(ab) 注意, ˚F ' b0 = 0和正 Ü φ Û 在减小 ü。现在,对于一个0 2 b ,很容易地看到, φ - b φ - b = φ b 。一起容易地暗示这些事实 ˚F ' b

fb(a)=φ(ab)φ(ab)=φ(ab)φ(a+b).
fb(0)=0uφ(u)ua(0,2b)φ(ab)φ-b=φb 为所有0和任何固定 b 0
Fb一种0
一种0b0

因此,我们已经表明,对于b 0P| ž + 一个| > b P| Ž | > b = 2 Φ - b 一种0b0

P|ž+一种|>bP|ž|>b=2Φ-b

如果我们取θ = ,则可以解开所有这些θ=qασ

PX2>qασ2Pž2>qα=1个-α

结束语:仔细阅读上面的论点表明,它仅使用正态分布的对称和单峰性质。因此,该方法类似地用于从任何对称单峰位置尺度族(例如柯西或拉普拉斯分布)的单次观测中获得置信区间。


哇!并希望学生在短时间内参加奥林匹克考试会想到这种论点?
Dilip Sarwate

1
@Dilip:我不知道!我不熟悉本届奥运会的形式或解决方案的预期。从字面上看,我认为斯科特基的答案是可以接受的。我对尝试弄清楚使用“非平凡的”解决方案可能会走到多远感兴趣。我自己的探索(相当少)遵循了答案中所描述的相同思路(绕了一个弯路)。很可能存在更好的解决方案。:-)
主教

这比“正式”解决方案要长得多,但是可以更好地限制差异,因此我将其标记为“正确”答案。我在下面发布了“官方”答案,以及一些模拟结果和讨论。谢谢@cardinal!
乔纳森·克里斯坦森

2
@乔纳森:谢谢。是的,我本来可以使证明更为简洁。由于这里参与者的背景广泛,我经常倾向于沉迷于额外的(或也许是过多的)细节。:-)
主教

12

是时候跟进了!这是给我的解决方案:

我们将构造形式为的置信区间,其中T [0ŤXŤ

μ[Rσ>0Pμσ2σ2>ŤX<0.01。
ñμσ21个/σ2πP|X|一种一种/σ一种0
ŤP|X|/σŤ=PX2Ť2σ2=Pσ2X2/Ť2
Ť=0.01ŤX=10000X2

在模拟中,置信区间(非常宽)有些保守,在我将CV改变多个数量级的情况下,没有经验覆盖率(在100,000个模拟中)低于99.15%。

6300X210000X2

04900X2


1
ŤŤ

2
还有两点:您的解决方案可以做到 非常接近,而无需对参数进行任何更改。请注意,您可以声明P|X|一种2一种/σ2π。然后间隔变为02X2/πα2 对于任何 α。使用α=0.01 产量 ŤX6366.198X21个/q0.016365.864在我的回答中。置信度越高(即,α),则您的方法与我的方法相比越近(尽管您的时间间隔将始终更宽)。
红衣主教

1
第二,我没有看过这篇论文,但是我强烈怀疑 04900X2可以是有效的99%置信区间。实际上,请考虑以下形式的所有置信区间0bX2 对于一些 b。然后,当μ=0,我们有 X2/σ2 恰好是具有一个自由度的卡方,所以最小 b 我们可以在这种情况下选择 b=1个/qα。换句话说,我的答案中给出的间隔是陈述形式中最窄的。
主教

1
我做了(疑似)错字更正。此外,pchisq(1/4900,1,lower.tail=F)Rreturn中0.9886,与您的模拟结果非常接近04900X2 间隔。
红衣主教

1
感谢所有评论,@ cardinal。我认为您所做的更改是正确的,尽管我以原始解决方案中的键入方式进行了键入-我猜是典型的。
乔纳森·克里斯滕森

5

CI的 0 想必。


1
我认为这对您说出为什么不能获得有限长度的置信区间会有所帮助。
假设正常的2012年

1
@Max我不够聪明-但问题并没有要求。
Scortchi-恢复莫妮卡

4
为此+1。问题并没有说CI的覆盖范围很小,实际上暗示它可以通过其好奇的措辞“可接受的置信区间,置信水平至少为 99%” 来接受。
Ari B. Friedman
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.