有多少个最大的术语 加起来是总数的一半?


11

考虑 其中是iid,而CLT成立。 几个最大的项加起来等于总数的一半? 例如,10 + 9 + 8(10 + 9 + 8 + 1)/ 2:30%的术语大约占总数的一半。i=1N|Xi|X1,,XN

定义
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

Halfsum()是否有一般的渐近结果? 一个简单,直观的推导会很好。N,μ,σ

(A小蒙特卡洛表明,有时halfsum() / 4左右; 即,最大的1/4加起来1/2总。 我得到0.24为halfnormal,0.19为指数,对于 = 20、50、100。)NN
Xi
NNN


3
不要期望像CLT这样的通用结果。例如,uniform(0,1)变量的答案将与uniform(1000,1001)变量的答案有很大不同!
whuber

正确,一半和当然会取决于均值和标准差。但是为什么要〜N / 5为指数呢?
denis

2
渐近地,丹尼斯,半和的截止点将是值,其中,其中是的pdf。; 这个问题要求(是的cdf )。对于统一的分布,您将获得@Dilip的答案;对于指数,。X 0˚F d = 1 / 2 ˚F | X i | N 1 F x F | X i | [ 0 1 ] X 0.186682 Ñ Ñ / 5x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]x0.186682NN/5
ub

Answers:


2

不,没有一般的渐近结果。令为有序,其中为最大。 x i x [ 1 ]x[1]x[N]xix[1]

考虑以下两个示例:

1)。显然,CLT成立了。对于您只需要观测值 。 M = 1 M j = 1 | x [ j ] | 1P(x=0)=1M=1j=1M|x[j]|12N|xi|

2)。显然,CLT成立了。您需要观测值 。中号= ñ / 2 Σ 中号Ĵ = 1 | x [ j ] | 1P(x=1)=1M=N/2j=1M|x[j]|12N|xi|

对于一个不平凡的例子,伯努利分布:

3)。CLT再次成立。您需要观测值才能满足您的条件。通过在0和1之间变化,可以根据需要尽可能接近示例1或示例2。p ñ / 2 pP(x=1)=p, P(x=0)=1ppN/2p


4
确实很明显,答案可以在到之间的任何位置,但这并不意味着不存在一般结果。它的意思是,我们应该考虑分数取决于基础分布的某些属性(例如均值和SD)的答案。这些与CLT一起足以提供有关与它们的总和相比如何分布的具体和定量信息,因此希望有这样的结果是合理的。0N/2x[i]
whuber

1

这是一个粗略的论点,给出了对均匀分布的随机变量的略有不同的估计。假设是均匀分布在上的连续随机变量。然后,具有平均值。假设通过一个令人惊讶且完全不可思议的巧合,该和正好等于。因此,我们想估计最大值中有多少个等于或更大。现在,从均匀度分布提取的样本(非常大)的直方图 从到大致平坦Xi[0,1]iXiN/2N/2XN/4NNU[0,1]01,因此对于任何,,都有 样本在到之间大致均匀地分布。这些样本具有平均值并且总和等于 。总和超过为。因此,最样本的总和超过 。x0<x<1(1x)Nx1(1+x)/2(1x)N(1+x)/2)=(1x2)N/2N/4x1/2(11/2)N0.3NN/4

您可以尝试对此进行概括。如果,则对于任何给定的,我们希望等于,其中 是均值且方差法线。因此,以的值为条件,。乘以的密度并积分(从到),以找到将超过随机总和一半的最大样本的平均数量。iXi=YYx(1x2)N/2=Y/2YN/2N/12Yx=1(Y/N)YY=0Y=N


被限制在间隔的两点之间的距离不能按指数分布,因为该距离必须小于而指数随机变量的取值为。什么是真实的是,如果是独立的指数随机变量,那么空调上中,为了统计均匀地分布在。例如,在伴随网站math.SE上查看此问题和答案。(续)(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α Y(1),Y(2),,Y(n)(0,α)
Dilip Sarwate

无论如何,我的论点都不使用均匀分布中有序样本之间的距离
Dilip Sarwate

你说得对,我误会了你。附带的问题是,按比例缩放后,均匀随机点之间的片段不是按指数分布的吗?[Wolfram演示项目的折断规则](demos.wolfram.com/BrokenStickRule)肯定看起来是指数的,一定容易吗?证明。
denis

请问您的附带问题作为一个单独的问题。
Dilip Sarwate

开始,然后看到片段长度的概率分布,您可以在此处评论。
denis

0

假设X具有正值以摆脱绝对值。

如果没有确切的证明,我认为您必须解决k

(1FX(k))E(X|X>=k)=12E(X)其中F是的累积分布函数

然后通过将来给出答案。n(1FX(k))

我的逻辑是,高于k的所有值的总和应为约

n(1FX(k))E(X|X>=k)

总和的一半是

12nE(X)

数值模拟表明,对于且为的均匀情况(),结果仍然成立。我不确定结果是否总是成立或是否可以进一步简化,但我认为它确实取决于分布函数F。[0,1]F(k)=kk=(12)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.