1
期望K数之和而不需替换
给定数字,每个数字的值不同,分别表示为,选择每个数字的概率分别为。nnnv1,v2,...,vnv1,v2,...,vnv_1, v_2, ..., v_np1,p2,...,pnp1,p2,...,pnp_1, p_2, ..., p_n 现在,如果我根据给定的概率选择数字,其中,那么这数字之和的期望是什么?请注意,选择是没有替换的,因此号不能包含重复的数字。我知道如果选择替换,则数字之和的期望等于,其中KKKK≤nK≤nK \leq nKKKKKKKKKK×E(V)K×E(V)K \times E(V)E(V)=v1×p1+v2×p2+...+vn×pn.E(V)=v1×p1+v2×p2+...+vn×pn.E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n. 此外,对那些数的方差的期望又如何呢?KKK 我是CS博士学生,正在研究大数据问题,而且我没有任何统计背景。我希望有人可以给我一个公式作为答案。但是,如果答案过于复杂而无法用公式描述或需要进行大量计算,则近似答案是完全可以接受的。 您可以假设此处的很大,并且概率可能相差很大。实际上,这些概率的值来自查询日志,该日志记录了一系列聚合查询。关键是查询中涉及的每个数字的频率可能会偏斜,即,很少查询一些,而某些查询则非常频繁。您可以假设概率分布是正态分布,zipf分布或任何其他合理的替代。nnn 值分布只是任何可能分布的连续子集。换句话说,如果您有一个表示一定分布的直方图,则此问题涉及的所有数字都是单个存储桶中的所有数字。 根据K的值,您可以假定它总是小于经常查询的元素的数量。