这是“第七届柯尔莫哥洛夫概率论奥林匹克竞赛”中的一个问题:
给定一个来自分布的观测值,且两个参数均未知,请给出的置信区间,置信度至少为99%。
在我看来,这应该是不可能的。我有解决方案,但尚未阅读。有什么想法吗?
我将在几天后发布解决方案。
[后续编辑:官方解决方案发布在下面。Cardinal的解决方案更长,但提供了更好的置信区间。也感谢Max和Glen_b的投入。]
这是“第七届柯尔莫哥洛夫概率论奥林匹克竞赛”中的一个问题:
给定一个来自分布的观测值,且两个参数均未知,请给出的置信区间,置信度至少为99%。
在我看来,这应该是不可能的。我有解决方案,但尚未阅读。有什么想法吗?
我将在几天后发布解决方案。
[后续编辑:官方解决方案发布在下面。Cardinal的解决方案更长,但提供了更好的置信区间。也感谢Max和Glen_b的投入。]
Answers:
从概率不平等和与多次观测的联系的角度来看,这个结果似乎并非不可能,或者至少看起来更合理。
让与和是未知的。我们可以写出为。
主权利要求:是为置信区间,其中是与一个自由度的卡方分布的-电平位数。此外,由于该间隔在μ = 0时具有精确的 覆盖率,因此它是形式为[ 0 ,b X 2)的最窄间隔对于一些。
乐观的理由
回想一下,在的情况下,与,则典型 置信区间是
因为,,然后 ( 0 ,Σ Ñ 我= 1 X 2 我 也具有至少(1 - α )的覆盖范围。
鉴于此,我们可能会乐观地认为,对于,主索赔中的间隔为true 。主要区别在于,对于单个观察而言,不存在零自由度卡方分布,因此我们必须希望使用单自由度分位数将起作用。
到达目的地半步(利用右尾巴)
在深入研究主要主张的证据之前,让我们首先看一下初步主张,该初步主张在统计上不那么强大或令人满意,但是也许可以为正在发生的事情提供更多的见解。您可以跳至下面的主要索赔证明,而不会造成太多(如果有)损失。在本节和下一部分中,证明(虽然有些微妙)仅基于基本事实:概率的单调性,正态分布的对称性和单峰性。
辅助权利要求:是(1 - α )为置信区间σ 2只要α > 1 / 2。这里ž α是α标准正常的-电平位数。
证明。和| σ ž + μ | d = | - σ ž + μ | 由对称性,所以在下文中,我们可以采取μ ≥ 0不失一般性。现在,对于θ ≥ 0和μ ≥ 0, P(| X | > θ )≥ P(X > θ ) 并因此与 θ = Ž α σ,我们可以看到, P(0 ≤ σ 2 < X 2 / Ž 2 α)≥ 1 - α
这证明了辅助主张。虽然是说明性的,但从统计角度来看并不能满足要求,因为它需要大得惊人的才能起作用。
证明主要主张
对以上参数进行细化可以得出适用于任意置信度水平的结果。首先,请注意 设置一个= μ / σ ≥ 0和 b =
集。然后 ˚F “ b 注意, ˚F ' b(0 )= 0和正 Ü, φ (Û )在减小 ü。现在,对于一个∈ (0 ,2 b ),很容易地看到, φ (一- b )≥ φ (- b )= φ (b )。一起容易地暗示这些事实 ˚F ' b(一
因此,我们已经表明,对于和b ≥ 0, P(| ž + 一个| > b )≥ P(| Ž | > b )= 2 Φ (- b )
如果我们取θ = √,则可以解开所有这些
结束语:仔细阅读上面的论点表明,它仅使用正态分布的对称和单峰性质。因此,该方法类似地用于从任何对称单峰位置尺度族(例如柯西或拉普拉斯分布)的单次观测中获得置信区间。
是时候跟进了!这是给我的解决方案:
我们将构造形式为的置信区间,其中T (⋅ )
在模拟中,置信区间(非常宽)有些保守,在我将CV改变多个数量级的情况下,没有经验覆盖率(在100,000个模拟中)低于99.15%。
pchisq(1/4900,1,lower.tail=F)
在R
return中0.9886
,与您的模拟结果非常接近 间隔。
CI的 想必。