Questions tagged «central-limit-theorem»

对于有关中心极限定理的问题,它指出:“在某些条件下,足够多的独立随机变量迭代的均值将近似正态分布,每个均具有定义明确的均值和定义明确的方差。” (维基百科)

1
t检验的“近似正常”评估
我正在使用Welch的t检验来测试均值。底层分布远非正常分布(比此处相关讨论的示例更偏斜)。我可以获取更多数据,但希望有一些原则性的方法来确定在多大程度上可以这样做。 是否有一个很好的试探法可以评估样本分布是否可以接受?与正常性的哪些偏差最令人担忧? 是否还有其他方法(例如,对样本统计数据依赖引导置信区间)会更有意义?

1
为什么中心极限定理对单个样本有效?
我一直被教导,当您重复采样并且每个采样足够大时,CLT就会起作用。例如,假设我有一个拥有100万公民的国家。我对CLT的理解是,即使他们的身高分布不正常,如果我对50个人进行了1000次抽样(即,对50位市民进行了1000次调查),然后计算了每个样本的平均身高,这些样本的分布意味着正常。 但是,我从未见过现实世界中研究人员重复取样的情况。相反,他们采取了一个大样本(即,调查了50,000名公民的身高)并以此作为工作依据。 为什么统计书教导重复采样,而在现实世界中研究人员只能进行一次采样? 编辑:我正在考虑的现实案例是对50,000个Twitter用户的数据集进行统计。该数据集显然不是重复样本,仅是50,000个样本中的一个。


1
除柯西以外,是否还有其他样本的算术平均值遵循相同分布的分布?
如果遵循柯西分布然后Ŷ = ˉ X = 1XXX也遵循与X完全相同的分布;看到这个线程。ÿ= X¯= 1ñ∑ñ我= 1X一世ÿ=X¯=1个ñ∑一世=1个ñX一世Y = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_iXXX 这个属性有名字吗? 还有其他分布是真的吗? 编辑 提出此问题的另一种方式: 令为概率密度为f (x )的随机变量。XXXF(x )F(X)f(x) 令,其中X我表示的第i个观察X。ÿ= 1ñ∑ñ我= 1X一世ÿ=1个ñ∑一世=1个ñX一世Y=\frac 1 n\sum_{i=1} ^n X_iX一世X一世X_iXXX 本身可以视为随机变量,而无需以 X的任何特定值为条件。ÿÿYXXX 如果遵循柯西分布,则Y的概率密度函数为f (x )XXXÿÿYF(x )F(X)f(x) 是否存在其他类型的(非平凡*)概率密度函数,从而导致Y具有f (x )概率密度函数?F(x )F(X)f(x)ÿÿYF(x )F(X)f(x) *我能想到的唯一简单的例子是狄拉克三角洲。即不是随机变量。

1
二次形式的渐近正态性
令xx\mathbf{x}为从提取的随机向量PPP。考虑一个样本{xi}ni=1∼i.i.d.P{xi}i=1n∼i.i.d.P\{ \mathbf{x}_i \}_{i=1}^n \stackrel{i.i.d.}{\sim} P。限定x¯n:=1n∑ni=1xix¯n:=1n∑i=1nxi\bar{\mathbf{x}}_n := \frac{1}{n} \sum_{i=1}^n \mathbf{x}_i,和 c ^:=1C^:=1n∑ni=1(xi−x¯n)(xi−x¯n)⊤C^:=1n∑i=1n(xi−x¯n)(xi−x¯n)⊤\hat{C} := \frac{1}{n} \sum_{i=1}^n (\mathbf{x}_i - \bar{\mathbf{x}}_n) (\mathbf{x}_i - \bar{\mathbf{x}}_n)^\top。让和。μ:=Ex∼P[x]μ:=Ex∼P[x]\boldsymbol{\mu} := \mathbb{E}_{\mathbf{x}\sim P}[\mathbf{x}]C:=covx∼P[x,x]C:=covx∼P[x,x]C:=\mathrm{cov}_{\mathbf{x} \sim P}[\mathbf{x}, \mathbf{x}] 根据中心极限定理,假设 n−−√(x¯n−μ)→dN(0,C),n(x¯n−μ)→dN(0,C), \sqrt{n} \big( \bar{\mathbf{x}}_n - \boldsymbol{\mu} \big) \stackrel{d}{\to} \mathcal{N}(\boldsymbol{0}, C), 其中是满秩协方差矩阵。CCC 问题:我如何证明(或反对) n−−√(x¯⊤n(C^+γnI)−1x¯n−μ⊤C−1μ)→dN(0,v2),n(x¯n⊤(C^+γnI)−1x¯n−μ⊤C−1μ)→dN(0,v2),\sqrt{n} \big( \bar{\mathbf{x}}_n^\top (\hat{C} + \gamma_n I)^{-1} \bar{\mathbf{x}}_n - \boldsymbol{\mu}^\top C^{-1} …


3
另一个中心极限定理问题
令为具有的独立伯努利随机变量序列 设置 表明在分布上收敛于标准正态变量因为趋于无穷大。P { X ķ = 1 } = 1 - P { X ķ = 0 } = 1{Xn:n≥1}{Xn:n≥1}\{X_n:n\ge1\}Sn= n ∑ k=1(Xk−1P{Xk=1}=1−P{Xk=0}=1k.P{Xk=1}=1−P{Xk=0}=1k.P\{X_k=1\}=1-P\{X_k=0\}=\frac{1}{k}.小号ÑSn=∑k=1n(Xk−1k), B2n=∑k=1nk−1k2Sn=∑k=1n(Xk−1k), Bn2=∑k=1nk−1k2S_n=\sum^{n}_{k=1}\left(X_k-\frac{1}{k}\right), \ B_n^2=\sum^{n}_{k=1}\frac{k-1}{k^2} žÑSnBnSnBn\frac{S_n}{B_n}ZZZnnn 我的尝试是使用Lyapunov CLT,因此我们需要显示存在一个,使得 δ>0δ>0\delta>0limn→∞1B2+δn∑k=1nE[|Xk−1k|2+δ]=0.limn→∞1Bn2+δ∑k=1nE[|Xk−1k|2+δ]=0.\lim_{n\rightarrow \infty}\frac{1}{B_n^{2+\delta}}\sum_{k=1}^{n}E[|X_k-\frac{1}{k}|^{2+\delta}]=0. 因此设置δ=1δ=1\delta=1∑k=1nE∣∣Xk−k−1∣∣3=∑k=1n(1k−3k2+4k3−2k4)∑k=1nE|Xk−k−1|3=∑k=1n(1k−3k2+4k3−2k4) \sum_{k=1}^{n}E\left|X_k-k^{-1}\right|^{3}=\sum_{k=1}^{n} \left(\frac{1}{k}-\frac{3}{k^2}+\frac{4}{k^3}-\frac{2}{k^4}\right) 和 B3n=(∑k=1n1k−1k2)(∑k=1n1k−1k2)−−−−−−−−−−−−⎷Bn3=(∑k=1n1k−1k2)(∑k=1n1k−1k2) B_n^3=\left( \sum_{k=1}^n \frac{1}{k}-\frac{1}{k^2} \right) \sqrt{\left( \sum_{k=1}^n \frac{1}{k}-\frac{1}{k^2} \right)} 通过在计算机上评估大n,它显示∑nk=1E|Xk−k−1|3→∞∑k=1nE|Xk−k−1|3→∞\sum_{k=1}^{n}E|X_k-k^{-1}|^{3} \to \infty和B3n→∞Bn3→∞B_n^3 \to …

3
有多少个最大的术语 加起来是总数的一半?
考虑 其中是iid,而CLT成立。 几个最大的项加起来等于总数的一半? 例如,10 + 9 + 8(10 + 9 + 8 + 1)/ 2:30%的术语大约占总数的一半。∑Ni=1|Xi|∑i=1N|Xi|\sum_{i=1}^N |X_i|X1,…,XNX1,…,XNX_1, \ldots, X_N≈≈\approx……\dots 定义 sumbiggest( j;X1…XN)≡sum of the j biggest of |X1|…|XN|sumbiggest( j;X1…XN)≡sum of the j biggest of |X1|…|XN| \qquad\text{sumbiggest( j}; X_1 \dots X_N ) \equiv \text{sum of the j biggest of } |X_1| \dots …

1
Iid随机变量之和的平方根的中心极限定理
出于对math.stackexchange的一个问题的兴趣,并进行了实证研究,我想知道以下有关iid随机变量之和的平方根的陈述。 假设是具有有限非零均值和方差 iid随机变量,并且。中心极限定理说随着增加。X1个,X2,… ,XñX1,X2,…,XnX_1, X_2, \ldots, X_nμμ\muσ2σ2\sigma^2ÿ= ∑我= 1ñX一世Y=∑i=1nXi\displaystyle Y=\sum_{i=1}^n X_iÑÿ- Ñ μñ σ2---√ →d ñ(0 ,1 )Y−nμnσ2 →d N(0,1)\displaystyle \dfrac{Y - n\mu}{\sqrt{n\sigma^2}} \ \xrightarrow{d}\ N(0,1)ñnn 如果,我也可以说类似随着增加?ž - √ž= | ÿ|---√Z=|Y|Z=\sqrt{|Y|}Ñž− n | μ | - σ24 | μ |--------√σ24 | μ |---√ →d ñ(0 ,1 )Z−n|μ|−σ24|μ|σ24|μ| →d N(0,1)\displaystyle \dfrac{Z …

3
信息论中心极限定理
信息理论CLT的最简单形式如下: 设X1,X2,…X1,X2,…X_1, X_2,\dots等于均值000和方差111。令fnfnf_n为归一化总和∑ n i = 1 X i的密度∑ni=1Xin√∑i=1nXin\frac{\sum_{i=1}^n X_i}{\sqrt{n}}ϕϕ\phiD(fn∥ϕ)=∫fnlog(fn/ϕ)dxD(fn‖ϕ)=∫fnlog⁡(fn/ϕ)dxD(f_n\|\phi)=\int f_n \log(f_n/\phi) dxnnnD(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0n→∞n→∞n\to \infty 从某种意义上说,由于Pinsker不等式,这种收敛肯定比文献中公认的收敛,分布收敛和 -metric 收敛“更强”。即,KL散度的收敛意味着分布的收敛和距离的收敛。L1L1L_1(∫|fn−ϕ|)2≤2⋅∫fnlog(fn/ϕ)(∫|fn−ϕ|)2≤2⋅∫fnlog⁡(fn/ϕ)\left(\int |f_n-\phi|\right)^2\le 2\cdot \int f_n \log(f_n/\phi)L1L1L_1 我想知道两件事。 结果什么?D(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0 难道仅仅是因为在第三段指出,我们说收敛KL散度(的原因,即,)是强?D(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0 注意:我前段时间在math.stackexchange中问了这个问题,但没有得到任何答案。

1
是MLE
假设(X,Y)(X,Y)(X,Y)具有pdf Fθ(x ,y)= e- (X / θ + θ ÿ)1个x > 0 ,y> 0,θ > 0fθ(x,y)=e−(x/θ+θy)1x>0,y>0,θ>0f_{\theta}(x,y)=e^{-(x/\theta+\theta y)}\mathbf1_{x>0,y>0}\quad,\,\theta>0 样品的密度(X,Y)= (X一世,Y一世)1个≤ 我≤ Ñ(X,Y)=(Xi,Yi)1≤i≤n(\mathbf X,\mathbf Y)=(X_i,Y_i)_{1\le i\le n}从这一人群得出因此是 Gθ(x,y)= ∏我= 1ñFθ(x一世,ÿ一世)= 经验[ - Σ我= 1ñ(x一世θ+ θ ÿ一世) ] 1X1个,… ,xñ,ÿ1个,… ,yñ> 0= 经验[ − n x¯θ- θ Ñ ÿ¯] 1X(1 ),ÿ(1 )> 0,θ …

3
在CLT中,为什么?
令是来自均值和方差的分布的独立观测值,当,则X1,...,XnX1,...,XnX_1,...,X_nμμ\muσ2&lt;∞σ2&lt;∞\sigma^2 < \inftyn→∞n→∞n \rightarrow \infty n−−√X¯n−μσ→N(0,1).nX¯n−μσ→N(0,1).\sqrt{n}\frac{\bar{X}_n-\mu}{\sigma} \rightarrow N(0,1). 为什么这意味着 X¯n∼N(μ,σ2n)?X¯n∼N(μ,σ2n)?\bar{X}_n \sim N\left(\mu, \frac{\sigma^2}{n}\right)?

1
两个样本卡方检验
这个问题来自范德法特(Van der Vaart)的书《渐近统计》(渐近统计)。253.#3: 假设和是具有参数和独立多项式向量。在零假设下表明XmXm\mathbf{X}_mYnYn\mathbf{Y}_n(m,a1,…,ak)(m,a1,…,ak)(m,a_1,\ldots,a_k)(n,b1,…,bk)(n,b1,…,bk)(n,b_1,\ldots,b_k)ai=biai=bia_i=b_i ∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i\sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}具有分布。其中。Ç我 = (X 米,我 + ÿ Ñ ,我)/(米+ Ñ )χ2k−1χk−12\chi^2_{k-1}c^i=(Xm,i+Yn,i)/(m+n)c^i=(Xm,i+Yn,i)/(m+n)\hat{c}_i = (X_{m,i} + Y_{n,i})/(m+n) 我需要一些入门帮助。这里的策略是什么?我能够将两个求和数合并为: ∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i\sum_{i=1}^k \dfrac{(mY_{n,i} - nX_{m,i})^2}{mn(m+n)\hat{c}_i} 但与CLT,因为它的加权组合这不会工作XmXmX_m和YnYnY_n。不确定这是否是正确的路径。有什么建议么? 编辑:如果m=nm=nm=n则很容易,因为我们得到 mYn−nXmmn(m+n)−−−−−−−−−√=Yn−Xm(m+n)−−−−−−−√mYn−nXmmn(m+n)=Yn−Xm(m+n)\begin{align*} \dfrac{mY_{n} - nX_{m}}{\sqrt{mn(m+n)}} &= \dfrac{Y_{n} - X_{m}}{\sqrt{(m+n)}} \end{align*} 其中分子可以看作是多项式变量的差之和,因此我们可以应用CLT,然后使用同一章的定理17.2结束它。但是,我无法弄清楚如何在这种情况下使用不同的样本量来解决这个问题。有什么帮助吗?(1,a1,…,ak)(1,a1,…,ak)(1,a_1,\ldots,a_k) 链接到van der Vaart的 Google图书的第17章

1
有一个定理说
令为具有定义的均值μ和标准偏差σ的任何分布。中心极限定理说 √XXXμμ\muσσ\sigma 收敛于标准正态分布。如果用样本标准差S代替σ,则有一个定理表明 √n−−√X¯−μσnX¯−μσ \sqrt{n}\frac{\bar{X} - \mu}{\sigma} σσ\sigmaSSS 收敛到t分布吗?由于对于较大的n,t分布接近正态,因此如果存在该定理,则该定理可以声明该极限为标准正态分布。因此,在我看来t分布不是​​很有用-仅当X大致为正态时才有用。是这样吗 n−−√X¯−μSnX¯−μS \sqrt{n}\frac{\bar{X} - \mu}{S} nnnXXX 如果可能的话,当被S替换时,您是否会指出包含该CLT证明的引用?这样的参考可以优选地使用度量理论概念。但是在这一点上,任何事情对我来说都是很棒的。σσ\sigmaSSS

2
当变量表现出完美的同时依赖时,多元中心极限定理(CLT)是否成立?
标题总结了我的问题,但为清楚起见,请考虑以下简单示例。令,i = 1,...,n。定义: \ begin {equation} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {equation} 和 \ begin {equation} T_n = \ frac {1} {n} \ sum_ {i = 1} ^ n(X_i ^ 2-1-1)\ end {equation} 我的问题:即使当n = 1时S_n和T_n完全相关,\ sqrt {n} S_n和\ …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.