Questions tagged «central-limit-theorem»

对于有关中心极限定理的问题,它指出:“在某些条件下,足够多的独立随机变量迭代的均值将近似正态分布,每个均具有定义明确的均值和定义明确的方差。” (维基百科)

7
中心极限定理有什么直观的解释?
在几种不同的情况下,我们调用中心极限定理来证明我们要采用的任何统计方法(例如,通过正态分布近似二项式分布)。我了解关于该定理为何成立的技术细节,但是我刚刚想到,我并不真正理解中心极限定理背后的直觉。 那么,中心极限定理背后的直觉是什么? Layman的解释将是理想的。如果需要一些技术细节,请假设我了解pdf,cdf,随机变量等的概念,但不了解收敛概念,特征函数或与度量理论有关的知识。



3
合并p值时,为什么不平均呢?
我最近了解了费舍尔组合p值的方法。这是基于该空下p值遵循均匀分布,并且该事实 ,我认为是天才。但是我的问题是为什么要走这种令人费解的方式?为什么不使用p值的均值并使用中心极限定理(这有什么问题)?或中位数?我试图了解RA费舍尔这个宏伟计划背后的天才。− 2 ∑我= 1ñ日志X一世〜χ2(2 n ), 给定 X〜UNIF (0 ,1 )−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)


3
考虑的总和
我一直在想这个问题。我觉得它突然发生有点奇怪。基本上,为什么我们只需要三个均匀的ZnZnZ_n就能平滑呢?为何平滑化如此迅速地进行? Z2Z2Z_2: Z3Z3Z_3: (图像从John D. Cook的博客中无耻地被盗:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/) 为什么不用四套制服?还是五个?要么...?


4
哪里来自于中心极限定理(CLT)?
中央受限定理的一个非常简单的版本,如下 ,这是Lindeberg–Lévy CLT。我不明白为什么在左侧有。Lyapunov CLT说 但是为什么不是?谁能告诉我这些因素是什么,例如和?我们如何在定理中得到它们?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}


6
有没有中心极限定理不成立的例子?
维基百科说- 在概率论中,中心极限定理(CLT)确定,在大多数情况下,添加独立随机变量时,即使原始变量本身不存在,其适当归一化的总和仍趋于正态分布(非正式地为“钟形曲线”)。正态分布... 当它说“在大多数情况下”时,中央极限定理在哪些情况下不起作用?

6
测试有限方差?
给定样本,是否可以测试随机变量方差的有限性(或存在性)?作为空值,可以接受{方差存在且为有限}或{方差不存在/为无限}。从哲学上(和在计算上),这似乎很奇怪,因为没有有限方差的总体与具有非常大方差(例如>)的总体之间应该没有区别,所以我不希望这个问题能够解决。解决了。104001040010^{400} 向我建议的一种方法是通过中央极限定理:假设样本为iid,并且总体具有有限的均值,则可以通过某种方式检查样本均值是否随着样本量的增加而具有正确的标准误。我不确定我是否相信这种方法会奏效。(特别是,我看不到如何进行适当的测试。)

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
为什么模拟中的中心极限定理会崩溃?
假设我有以下数字: 4,3,5,6,5,3,4,2,5,4,3,6,5 我对其中一些采样,例如5个,并计算5个采样的总和。然后,我一遍又一遍地重复该操作,以获得许多总和,并在直方图中绘制总和的值,由于中心极限定理,该直方图将为高斯。 但是当他们跟随数字时,我只是用一些大数字代替了4: 4,3,5,6,5,3,10000000,2,5,4,3,6,5 这些样本中的5个样本的采样和不会在直方图中成为高斯,而更像是分裂,变成两个高斯。这是为什么?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
正态近似于均匀和分布的误差
一种近似于正态分布的幼稚方法是将大约均匀分布在上的IID随机变量加在一起,然后根据中心极限定理对它们进行重新缩放和重新缩放。(旁注:还有更精确的方法,例如Box-Muller变换。)IID随机变量的总和称为均匀总和分布或Irwin-Hall分布。100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1) 用正态分布近似均匀和分布时的误差有多大? 每当出现这种类型的问题以近似IID随机变量的总和时,人们(包括我)都会提出Berry–Esseen定理,这是中心极限定理的有效形式,因为存在第三阶矩: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} 其中是n个 IID随机变量的重新定标和的累积分布函数,\ rho是绝对的第三中心矩E |(X-EX)^ 3 |。,\ sigma是标准偏差,C是绝对常数,可以取为1甚至1/2。FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 这是不令人满意的。在我看来,对于离散的二​​项式分布,Berry-Esseen估计最接近锐利,对于对称的二项式分布,最大误差为000。最大的错误来自最大的跳跃。但是,统一的总和分布没有跳跃。 数值测试表明,误差的减小比c / \ sqrt n更快c/n−−√c/nc/\sqrt n。 使用C=1/2C=1/2C=1/2,Berry–Esseen估计为|Fn(x)−Φ(x)|≤12132112√3n−−√≈0.650n−−√|Fn(x)−Φ(x)|≤121321123n≈0.650n|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n} 这对于n=10,20,40n=10,20,40n=10,20,40为约0.2050.2050.205,0.1450.1450.145,和0.1030.1030.103,分别。对于实际的最大差异n=10,20,40n=10,20,40n=10, 20, 40似乎是约0.002810.002810.00281,0.001390.001390.00139和0.0006920.0006920.000692,分别,这要小得多,并且似乎落入如c/nc/nc/n,而不是c/n−−√c/nc/\sqrt n。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.