预期平均值将超过一个值的预期次数


11

给定一系列iid随机变量,例如,对于,为,我试图限制经验均值的预期次数会超过一个值,因为我们继续绘制样本,即: Xi[0,1]i=1,2,...,n1ni=1nXic0

T=defj=1nP({1ji=1jXic})

如果我们假设对于,我们可以使用Hoeffding不等式得出c=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

哪个看起来不错(也许),但实际上是一个松散的界限,是否有更好的方法来限制此值?我希望可能会有一种方法,因为不同的事件(每个)显然不是独立的,我不知道有任何方法可以利用这种依赖性。同样,最好删除大于平均值的限制。jc

编辑:如果我们使用马尔可夫不等式,可以消除对大于均值的限制:c

Tj=1n1jE[X]c=E[X]Hnc
尽管更明显,但每当时必须偏离。TcE[X]

您对定义不符合您的描述。如果“ ”被拆除这将是预期数量的超标,但写它是线性组合。这显然不是期望,因为概率不是互斥的。例如,当,。Tj×cc0T=n(n+1)/2
ub

@whuber哦,对了,非常感谢,我已经在上面修复了它。
fairidox

我注意到您更改了上限。现在看来是负面的;-)。
ub

指数中的“ ” 不应该平方吗?-好吧,它简化为[0,1]域j
Alecos Papadopoulos

Answers:


1

这是一种手工制作的方法,对此我将不胜感激,(对此提出批评通常是最有帮助的)。如果我理解正确,OP将计算样本均值,其中每个样本包含来自新rv的先前样本+1观测值。表示每个样本均值的分布。然后我们可以写 x¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

考虑的样品大小之后将样本均值的分布几乎是正常的,表示它。然后我们可以写mG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

解决我们得到 其中是标准法线cdf,是iid进程的标准偏差,是其平均值。插入边界并重新排列,我们得到G^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

请注意,此界限还取决于过程的差异。这比问题中提出的约束更好吗?这将主要取决于样本平均值的分布如何“迅速”变为“几乎正态”。为了给出一个数值例子,假设该 。还假设随机变量在是统一的。然后和。考虑与平均值的10%的偏差,即设置。然后:对于,我建议的边界(对于有意义)变得更加严格。对于,霍夫廷界为m=30[0,1]σ=112μ=12a=0.05n=34n>30n=10078.5而我建议的是。Hoeffding边界收敛到而我建议的边界如果增大,则两个边界之间的差异减小但仍然可见:对于20%的偏差,,Hoeffding边界收敛到而我建议将收敛到(即正常cdfs的总和对整体界线的贡献很小)。 更一般地说,我们注意到对于,霍夫定界收敛于36.2199.538.5aa=0.149.530.5
n

Hb1e2a21
而我绑定到
Abm

由于对于较小的值(这是有意义的情况),变大了,因此即使样本使得样本均值的分布缓慢收敛为,仍然存在在紧密度可能胜过它的情况。正态分布。aHbAb


(即,不超过假设的样本量阈值,则需要获得样本均值分布的正态近似值) ”“您在这里在说什么?
Glen_b-恢复莫妮卡

没有要紧的。当我在上面写一些行时,有一条经验法则,以便使样本均值的分布像正常情况一样“很多”,这就是我们至少需要30个样本量。因此,对于100个样本量和20%的偏差情况下,我的边界是即换句话说 部分贡献很小。30.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos

除非您能说明它所处的环境,否则请避免以任何一般意义将其称为经验法则。30的数字是完全任意的(通常太弱或太强),而您认为30也出现了,我相信这是简单的巧合。
Glen_b-恢复莫妮卡

1
@Glen_b“ 30”甚至不是巧合-我只是用它来提供一个数值示例。我对这个问题没有异议,我不喜欢“经验法则”(尤其是当它们可疑时)。我对答案做了一些更改。感谢您的输入。
Alecos Papadopoulos

@Glen_b感谢您可能的非固定(即长)内存!
Alecos Papadopoulos
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.