了解Hoeffding不等式中使用的引理的证明


11

我正在学习拉里·瓦瑟曼(Larry Wasserman)关于统计学的讲义,该讲义以卡塞拉(Casella)和伯格(Berger)为主要教材。我正在研究他的讲义集2,并陷入了霍夫丁不等式中使用引理的推论(第2-3页)。我将在下面的注释中复制证明,在证明之后,我将指出我被卡在的地方。


引理

假设,并且。然后 。E(X)=0aXbE(etX)et2(ba)2/8

证明

由于,我们可以写为的凸组合和,即 其中。通过函数凸性,我们得到aXbXabX=αb+(1α)aα=Xabayety

etXαetb+(1α)eta=Xabaetb+bXbaeta

取得双方的期望并使用事实来获得E(X)=0

E(etX)abaetb+bbaeta=eg(u)

其中u=t(ba)g(u)=γu+log(1γ+γeu)γ=a/(ba)。注意,g(0)=g(0)=0。对于所有u> 0也是g ^ {''}(u)\ le 1/4g(u)1/4u>0

根据泰勒定理,有一个ε0ü使得 Gü=G0+üG0+ü22G''ε=ü22G''εü28=Ť2b-一种28

因此E(etX)ËGüËŤ2b-一种28


我可以遵循证明直到

uguγËËŤX-一种b-一种ËŤb+bb-一种ËŤ一种=ËGü 但我无法弄清楚如何获得。üGüγ


3
有趣的是,所述最大的值是,因此其结果是有效看起来太熟悉了,无法从纯粹的巧合中产生出来。我怀疑可能存在另一种可能更容易通过概率论证得出结果的方法。σ 2 最大值 = b - 2 / 4 ë [ ë X ] ë σ 2 最大2变种Xσ最大值2=b-一种2/4
Ë[ËŤX]Ëσ最大值2Ť2/2
Dilip Sarwate 2012年

@DilipSarwate我的理解是,最大方差发生在一个统一的随机变量。的方差为。您能否解释一下?X V - [R X = b - 2Xü一种bXba2Var(X)=(ba)212(ba)24
阿南德2012年

通过将质量集中在端点上...
Elvis

@DilipSarwate我在证明中添加了一些评论,这也许可以澄清一点,为什么最坏的情况是最大方差。
猫王2012年

1
@DilipSarwate-参见引理1和练习1:terrytao.wordpress.com/2010/01/03/…。似乎有一个更简单的推论依赖于詹森的不等式和泰勒的扩张。但是我不清楚这方面的细节。也许有人可以理解。((9)至(10)的推导和练习1)
Leo

Answers:


17

我不确定我是否正确理解了您的问题。我将尝试回答:尝试将为的函数:很自然,因为您想要在绑定。u=tbae u 2

-一种b-一种ËŤb+bb-一种ËŤ一种
ü=Ťb-一种Ëü28

在经验的帮助下,您将知道最好选择以的形式编写。然后 导致 与。 e g u = aËGü g u

eg(u)=abaetb+bbaeta
g(u)=log(abaetb+bbaeta)=log(eta(abaet(ba)+bba))=ta+log(γeu+(1γ))=γu+log(γeu+(1γ)),
γ=aba

这就是您要的那种吗?

编辑:关于证明的一些评论

  1. 第一个技巧值得仔细研究:如果是凸函数,而是居中的随机变量,则 其中是定义的离散变量 因此,您得到为在中具有最大方差的居中变量: 请注意,如果我们固定支撑宽度一个X b ÈφϕaXbX 0 PX 0 = a
    E(ϕ(X))abaϕ(b)+bbaϕ(a)=E(ϕ(X0)),
    X0X0[ab]VarX=EX2
    P(X0=a)=bbaP(X0=b)=aba.
    X0[a,b]b a
    Var(X)=E(X2)E(X02)=ba2ab2ba=ab.
    (ba),正如Dilip在评论中所说的,它小于,这是因为 ; 达到的界限。(ba)24(ba)2+4ab0a=b
  2. 现在转向我们的问题。为什么有可能仅取决于得到界限?直观地讲,这只是缩放的问题:如果对于案例,您有一个的边界,那么一般边界可以通过取。现在考虑在宽度1的支持下的一组中心变量,因为自由度不高,所以应该存在像这样的边界。 另一种方法是简单地说,根据上述引理,然后更一般地说,它仅取决于和X È Ë X小号b - 一个= 1 小号b - 小号Ëu=t(ba)XE(etX)s(t)ba=1sŤb-一种sŤ

    ëφ X èφ X 0ËϕXÙ γ Ù = Ù 0 = - 一个0ËϕŤXËϕŤX0üγ:如果您修正和,并且让变化,那么只有一个自由度,和,,。我们得到 您只需要找到一个只涉及的边界。γ = γ 0ü=ü0=Ť0b0-一种0 tabγ=γ0=-一种0b0-一种0Ť一种b一个=α一个0b=αŤ=Ť0α一种=α一种0 - b=α一种0ü

    -一种b-一种ϕŤb+bb-一种ϕŤ一种=-一种0b0-一种0ϕŤb0+b0b0-一种0ϕ一种0
    ü
  3. 现在,我们坚信可以做到这一点,它必须容易得多!您不必首先想到。关键是您必须将所有内容都编写为和的函数。 首先请注意,,,和。然后 现在在特殊情况下,我们是 ... I认为你可以完成。ü γGüγ

    γ=-一种b-一种=-γùb1个-γ=bb-一种一种Ť=-γüÈφ X bŤ=1个-γü φ=EXP

    ËϕŤX-一种b-一种ϕŤb+bb-一种ϕŤ一种=γϕ1个-γü+1个-γϕ-γü


    ϕ=经验值

我希望我能澄清一下。


那正是我想要的。非常感谢。
阿南德2012年

1
@Anand我知道很难遵循建议,但是我认为您不应该从专注于技术细节开始,而应该尝试弄清为什么存在这样的界限……然后证明应该看起来更容易。我试图向您展示为什么在第二部分中添加了今天早上的内容(您需要沉迷于这样的问题–至少我需要这样做)。我认为在大多数教科书中都没有出现这种直觉是可怕的……即使您掌握了技术方面的知识,只要您没有主意,一切都看起来很神奇。感谢您和CrossV,让我有机会对此进行详细思考!
猫王2012年

1
哇!+1以进行编辑。谢谢。但是,是否有可能得到类似这不是很好
Ë[ËŤX]ËË[Ť2X2/2]=ËŤ2/2Ë[X2]=ËŤ2/2变种XËŤ2σ最大值2/2
Dilip Sarwate 2012年

@Elvis感谢您的建议,并感谢您抽出宝贵的时间写下直观的部分。我需要花一些时间来理解这一点!
阿南德2012年

1
@Elvis关于直觉,我想澄清一下我的理解。为了获得更清晰的界限,需要更高的时刻。马尔可夫使用第一时刻,切比雪夫使用第二时刻,霍夫丁使用mgf。这个对吗?如果有人可以扩展和阐明这一部分,那就太好了。
阿南德2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.