期望K数之和而不需替换


9

给定数字,每个数字的值不同,分别表示为,选择每个数字的概率分别为。nv1,v2,...,vnp1,p2,...,pn

现在,如果我根据给定的概率选择数字,其中,那么这数字之和的期望是什么?请注意,选择是没有替换的,因此号不能包含重复的数字。我知道如果选择替换,则数字之和的期望等于,其中KKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

此外,对那些数的方差的期望又如何呢?K

我是CS博士学生,正在研究大数据问题,而且我没有任何统计背景。我希望有人可以给我一个公式作为答案。但是,如果答案过于复杂而无法用公式描述或需要进行大量计算,则近似答案是完全可以接受的。

您可以假设此处的很大,并且概率可能相差很大。实际上,这些概率的值来自查询日志,该日志记录了一系列聚合查询。关键是查询中涉及的每个数字的频率可能会偏斜,即,很少查询一些,而某些查询则非常频繁。您可以假设概率分布是正态分布,zipf分布或任何其他合理的替代。n

值分布只是任何可能分布的连续子集。换句话说,如果您有一个表示一定分布的直方图,则此问题涉及的所有数字都是单个存储桶中的所有数字。

根据K的值,您可以假定它总是小于经常查询的元素的数量。


3
如果不进行替换,总和方差的期望将有所不同;如果没有替代品,您将需要一个有限的人口校正系数。(要直观地看到这一点,请注意,如果K = n,总和的方差为零,因为它始终是相同的数字;因此,当K接近n时,总和的方差会更低。)
zbicyclist 2013年

1
这个问题可能比看起来棘手。考虑和。用替换得出的两个值的预期总和是,这当然是一个值的预期总和的两倍;但是除了之外,没有替换而得出的两个值的预期总和显然是。n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber

1
@zbicyclist也许我没有清楚说明问题。在我的情况下,如果K = N,那么这些K个的方差将一般人群的方差,而不是0。
SciPioneer

1
(1)在我看来,这似乎不是一个自学的问题:它看起来像是一个真正的应用问题。(2)可能有多大?确切的解决方案看起来不可行,除非可以枚举所有子集。(3)如果可以大于左右(不包括快速枚举),那么您对什么看法?例如,它们会变化还是全部接近?这可以为寻找近似答案提供帮助。nn20pi1/n
whuber

1
感谢您的修改。关于,,和越多,越好。例如,如果则用于替换采样的公式应该是很好的近似值(因为很少会重复选择很少的值)。我认为最困难的情况是,那里是一个大范围的值的 -因此,你不能只是取代他们大多以零,但与的为数可观的 --and。NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Answers:


2

这可能是答案的性质,尽管准确,但可能没什么用。Horvitz和Thompson(1952)提供的结果通常涵盖了这种情况。这些结果是根据人们可能期望的组合表达式给出的。

为了与它们的符号保持一致,并与更广泛使用的符号更好地对应,让我重新定义一些数量。令为总体中元素的数量,为样本数量。Nn

令,表示总体中的元素,具有给定值,和选择概率。对于大小为的给定样本,令样本中的观察值为。uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

期望的是样本总数的均值和方差

i=1nvi.

如评论中所述,选择顺序绘制的特定样本的概率为 其中绘制的初始概率 由给出 ,绘制的第二概率以将从总体中删除为条件,依此类推。因此,随后绘制的每个单元都会为下一个单元产生新的概率分布(因此,选择不同的字母,因为每个字母代表不同的分布。)s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

有 个大小为样本,在整个总体中包含。请注意,这考虑了样本的排列。

S(i)=n!(N1n1)
nuin!

令表示大小为的特定样本,其中包括。然后,选择元素的概率由 其中求和超过的大小的集合大小为所有可能样本都包含。(我对论文的表示法做了些改动,因为它使我感到困惑。)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

同样地,定义 作为同时包含和的样本数。然后,我们可以定义同时包含的样本的概率 其中总和超过大小集的所有可能的样品的大小的包含和。

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

然后将期望值导出为

E(i=1nvi)=i=1NP(ui)Vi.

尽管在本文中未明确得出方差,但可以从第个矩 期望中获得方差 和叉积 q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

换句话说,似乎需要遍历所有可能的子集来进行这些计算。不过,也许可以对较小的值执行此操作。n

Horvitz,DG和Thompson,DJ(1952)采样的概括,没有从有限的宇宙中替换。美国统计协会杂志 47(260):663-685。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.