Questions tagged «central-limit-theorem»

对于有关中心极限定理的问题,它指出:“在某些条件下,足够多的独立随机变量迭代的均值将近似正态分布,每个均具有定义明确的均值和定义明确的方差。” (维基百科)

3
t平方的总和是多少?
对于中等大小的(例如小于100),让从具有自由度的Student t分布中得出。定义 是否几乎以具有自由度的卡方分布?平方随机变量的总和是否有类似中心极限定理的东西? Ñ Ñ Ť = Σ 1 ≤ 我≤ ķ吨2 我 Ť ķŤ一世tit_iñnnñnnŤ= ∑1 ≤ 我≤ ķŤ2一世T=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2ŤTTķkk

4
为什么增加硬币翻转的样本大小不能改善法线曲线逼近度?
我正在阅读《统计》(弗里曼,皮萨尼,普尔韦斯)这本书,并尝试重现一个例子,其中一个硬币被扔了50次,计数的数目正好重复了1000次。 首先,我将投掷次数(样本大小)保持在1000,并增加了重复次数。重复次数越多,数据越符合正态曲线。 因此,接下来,我尝试将重复次数固定为1,000,并增加了样本量。样本数量越大,法线曲线似乎越不适合数据。这似乎与本书示例相矛盾,本书示例随着样本数量的增加更好地逼近正态曲线。 我想看看如果增加样本量会发生什么情况,但是重复次数固定为10,000。这似乎也与该书矛盾。 有什么想法我做错了吗? 下面的代码和图表。 %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), max(sums) lnspc = np.linspace(xmin, xmax, len(sums)) m, s = stats.norm.fit(sums) # get mean and standard deviation pdf_g = stats.norm.pdf(lnspc, m, …

4
数据正态分布的原因
有哪些定理可以解释(即生成)为什么现实世界中的数据可以正态分布? 我知道有两个: 中心极限定理(当然),它告诉我们具有均值和方差(即使它们的分布不相同)的几个独立随机变量的总和也倾向于正态分布 令X和Y为具有不同密度的独立连续RV,以使它们的联合密度仅取决于 +。那么X和Y是正常的。X2X2x^2ÿ2ÿ2y^2 (来自mathexchange的跨帖子) 编辑: 为澄清起见,我对正态分布的真实世界数据没有任何主张。我只是在问一些定理,这些定理可以洞察什么样的过程可能导致数据呈正态分布。

3
中心极限定理需要大样本量的分布示例
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯X¯\bar{X}。 我知道这还不够所有发行版。 我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。 我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。

2
当数据不是正态分布时,如何测试两组均值之间的差异?
我将消除所有生物学上的细节和实验,只引用眼前的问题以及我在统计学上所做的事情。我想知道它是否正确,如果不正确,如何进行。如果数据(或我的解释)不够清楚,我将尝试通过编辑来更好地解释。 假设我有两个组/观测值X和Y,大小分别为和N y = 40。我想知道这两个观察的平均值是否相等。我的第一个问题是:ñX= 215Nx=215N_x=215ñÿ= 40Ny=40N_y=40 如果满足假设,在这里使用参数两样本t检验是否有意义?我问这是因为据我了解,通常在尺寸较小时使用它吗? 我绘制了X和Y的直方图,并且它们不是正态分布的,这是两次样本t检验的假设之一。我的困惑是,我认为它们是两个人口,这就是为什么我检查正态分布。但是接下来我要进行两次样本t检验... 是吗? 根据中心极限定理,我了解到如果您多次执行抽样(根据人口规模是否进行重复)并每次计算样本平均值,那么样本将近似呈正态分布。并且,此随机变量的均值将很好地估计总体均值。因此,我决定在X和Y上执行此操作1000次,并获得样本,然后为每个样本的平均值分配一个随机变量。情节是非常正态分布的。X和Y的平均值分别为4.2和15.8(与总体+-0.15相同),方差分别为0.95和12.11。 我对这两个观测值(每个有1000个数据点)进行了t检验,它们具有不相等的方差,因为它们有很大差异(0.95和12.11)。零假设被拒绝了。 这有道理吗?这种正确/有意义的方法还是两个样本的z检验足够了还是完全错误的? 为了确保(在原始X和Y上)我也执行了非参数Wilcoxon检验,并且在那里也令人信服地拒绝了原假设。如果我以前的方法完全错误,我认为进行非参数检验是好的,除了统计功效之外? 在两种情况下,均值均存在显着差异。但是,我想知道这两种方法中的一种还是两种都是错误的/完全错误的,如果是,那有什么替代方法?

3
非正态样本的样本方差的渐近分布
这是造成问题的更一般的处理 这个问题。在得出样本方差的渐近分布之后,我们可以应用Delta方法得出标准差的相应分布。 设一个大小为的iid 非正态随机变量,均值和方差。将样本均值和样本方差设置为 { X i } ,nnn{Xi},i=1,...,n{Xi},i=1,...,n\{X_i\},\;\; i=1,...,nμμ\muσ2σ2\sigma^2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2\bar x = \frac 1n \sum_{i=1}^nX_i,\;\;\; s^2 = \frac 1{n-1} \sum_{i=1}^n(X_i-\bar x)^2 我们知道 E(s2)=σ2,Var(s2)=1n(μ4−n−3n−1σ4)E(s2)=σ2,Var⁡(s2)=1n(μ4−n−3n−1σ4)E(s^2) = \sigma^2, \;\;\; \operatorname {Var}(s^2) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right) 其中μ4=E(Xi−μ)4μ4=E(Xi−μ)4\mu_4 = E(X_i -\mu)^4,我们将注意力集中在需要存在且有限的矩,确实存在且为有限矩的分布上。 它持有吗 n−−√(s2−σ2)→dN(0,μ4−σ4)?n(s2−σ2)→dN(0,μ4−σ4)?\sqrt n(s^2 - \sigma^2) \rightarrow_d N\left(0,\mu_4 - \sigma^4\right)\;\; ?

1
中心极限定理和大数定律
关于中央极限定理(CLT),我有一个非常初学者的问题: 我知道CLT指出iid随机变量的均值近似为正态分布(对于,其中n是求和的索引)或标准化随机变量将具有标准正态分布。n→∞n→∞n \to \inftynnn 现在,《大数定律》粗略地说,iid随机变量的均值(概率或几乎确定地)收敛至其期望值。 我不明白的是:如果按照CLT的规定,均值大致呈正态分布,那么它又如何同时收敛到期望值呢? 对我而言,收敛将意味着,随着时间的推移,平均值取非预期值的概率几乎为零,因此,分布的确不是正态的,而是除预期值外,各处均几乎为零。 欢迎任何解释。

3
为什么CLT对不起作用?
因此,我们知道的和泊松与参数是本身泊松 。因此,假设可以取并说它实际上是,其中每个是:,并花大的n才能使CLT工作。nnnλλ\lambdanλnλn\lambdax∼poisson(λ=1)x∼poisson(λ=1)x \sim poisson(\lambda = 1) ∑n1xi∼poisson(λ=1)∑1nxi∼poisson(λ=1)\sum_1^n x_i \sim poisson(\lambda = 1) xixix_ixi∼poisson(λ=1/n)xi∼poisson(λ=1/n)x_i \sim poisson(\lambda = 1/n) 这(显然)不起作用。我认为这与CLT如何“更快”地处理与正常情况“更接近”的随机变量有关,并且lambda越小,我们得到的随机变量越多,该随机变量大多为0,并且很少变化。 但是,我的解释是我的直觉。是否有更正式的方式来解释为什么会这样? 谢谢!

2
中心极限定理的动力学系统观点?
(最初发布于MSE。) 我已经看到许多关于经典中心极限定理的启发式讨论,都把正态分布(或任何稳定分布)说成是概率密度空间中的“吸引子”。例如,在Wikipedia的治疗方法顶部考虑以下句子: 在更一般的用法中,中心极限定理是概率论中一组弱收敛定理中的任何一个。他们都表达了这样一个事实,即许多独立且均匀分布的(iid)随机变量的总和,或者具有特定依赖类型的随机变量将倾向于根据一小部分吸引子分布进行分布。当iid变量的方差是有限的时,吸引子分布为正态分布。 这种动态系统语言很有启发性。费勒在第二卷中对CLT的处理中也提到了“吸引力”(我想知道这是否是该语言的来源),而本笔记中的尤瓦尔·弗利姆斯(Yuval Flimus)甚至谈到了“吸引力盆地”。(我不认为他的意思是“ 事先可以推断出吸引盆的确切形式”,而是“ 事先可以推断出吸引子的确切形式”;但是,语言在那里。)我的问题是:这些可以吗?动态类比可以精确吗?我不知道它们在哪本书中-尽管许多书确实强调了正态分布对于卷积下的稳定性(以及傅立叶变换下的稳定性)是特殊的。这基本上告诉我们,法线很重要,因为它是一个固定点。CLT进一步发展,告诉我们这不仅是一个固定点,而且是吸引子。 为了使此几何图形精确,我假设将相空间作为一个合适的无限维函数空间(概率密度的空间),并将演化算子与初始条件重复卷积。但是我不知道使这张照片起作用的技术性或是否值得追求。 我猜想,因为我找不到确实可以明确采用这种方法的治疗方法,所以我认为这是可以做的或者很有趣,这肯定存在一些错误。如果是这样,我想听听为什么。 编辑:在整个Math Stack Exchange和MathOverflow中,读者可能会对三个类似的问题感兴趣: 高斯分布作为某些分布空间(MO)中的固定点 通过最大熵(MO)的中心极限定理 是否有通过某些不动点定理证明中心极限定理?(MSE)


4
确定性世界中的机会运作
在史蒂文·平克(Steven Pinker)的书《我们的天性更好的天使》中,他指出 概率是一个透视问题。在足够近的范围内观察,个别事件具有确定的原因。甚至可以从起始条件和物理定律预测出掷硬币的情况,熟练的魔术师每次都可以利用这些定律投头。但是,当我们进行放大以对大量此类事件进行广角观察时,我们会看到大量原因的总和,这些原因有时相互抵消,有时沿同一方向排列。物理学家和哲学家亨利·庞加莱(Henri Poincare)解释说,当大量的微不足道的原因加在一起产生可怕的影响,或者当一个小的原因未能引起我们注意时,我们便会在确定性世界中看到机会的运作,而​​我们无法错过。如果是有组织的暴力,可能有人会发动战争;他等待机会的时刻,可能会或可能不会到来;他的敌人决定参与或撤退;子弹飞 炸弹爆炸;人们死了。每个事件都可以由神经科学,物理学和生理学定律确定。但是,总的来说,进入此矩阵的许多原因有时可以改组为极端组合。(第209页) 我对加粗的句子特别感兴趣,但其余内容供我参考。我的问题是:是否有统计学方法描述Poincare描述的两个过程?这是我的猜测: 1)“大量微不足道的影响加起来令人震惊。” 我听到的“大量原因”和“累加”就像中心极限定理。但是,在CLT(的经典定义)中,原因需要是随机变量,而不是确定性影响。这里的标准方法是将这些确定性效应近似为某种随机变量吗? 2)“忽略我们的一个小原因决定了我们不能错过的一个大影响。” 在我看来,您可以将其视为某种隐藏的马尔可夫模型。但是,HMM中的(不可观察到的)状态转换概率就是那个概率,根据定义,它还是不确定的。

2
如果连接数不能为负,那么连接数如何为高斯呢?
我正在分析社交网络(不是虚拟网络),并且观察到人与人之间的联系。如果一个人会选择另一个人随机连接,则一组人中的连接数将以正态分布-至少根据我当前正在阅读的书。 我们怎么知道分布是高斯分布(正态分布)?有其它分布例如泊松,大米,瑞利等在理论高斯分布的问题是,该值从去−∞−∞-\infty到+∞+∞+\infty(虽然概率朝向零去)和连接的数量不能为负。 没有人知道在每个人独立(随机)地搭接另一个人的情况下可以预期的分布吗?

3
中心极限定理与大数定律
中心极限定理指出,随着趋于无穷大,iid变量的均值变得正态分布。NNN 这提出了两个问题: 我们可以由此推论出大数定律吗?如果大数定律告诉我们,随机变量的值的样本均值等于真实平均作为趋于无穷大,那么似乎更强地说,(作为中心极限表示),该值变为其中是标准偏差。那么说中心极限意味着大数定律是否公平?Ñ Ñ(μ ,σ )σμμ\muNNNN(μ,σ)N(μ,σ)\mathcal N(\mu, \sigma)σσ\sigma 中心极限定理是否适用于变量的线性组合?

2
独立样本t检验:真的需要对大样本数据进行正态分布吗?
假设我要测试两个独立样本是否具有不同的均值。我知道基础分布不正常。 如果我理解正确,则我的检验统计量就是平均值,并且对于足够大的样本量,即使没有样本,平均值也应呈正态分布。因此,在这种情况下,参数显着性检验应该有效,对吗?我已阅读了与此相关的令人困惑和令人困惑的信息,因此,我希望获得一些确认(或解释我错了的原因)。 另外,我已经读过,对于大样本量,我应该使用z统计量而不是t统计量。但是实际上,t分布将收敛于正态分布,并且两个统计量应该相同,不是吗? 编辑:以下是一些描述z检验的资料。他们都声明必须按正态分布人口: 在这里,它说:“无论使用哪种Z检验,都假定抽取样本的总体是正常的。” 而在这里,对于Z测试的要求,被列为“两正态分布,但独立的群体,σ被称为”。

2
如果随机变量的值范围是有界的,我们如何获得正态分布为?
假设我们有一个随机变量,其值的范围由和界定,其中是最小值,是最大值。b a baaabbbaaabbb 有人告诉我,,其中是我们的样本大小,我们样本均值的抽样分布是正态分布。也就是说,当我们增加我们越来越接近正态分布,但实际极限是相等的正态分布。ñ ñ ñ →交通∞n→∞n→∞n \to \inftynnnnnnn→∞n→∞n \to \infty 但是,它不是必须从扩展到的正态分布的定义的一部分吗?∞−∞−∞- \infty∞∞\infty 如果我们范围的最大值为,则最大样本均值(与样本大小无关)将等于,最小样本均值将等于。b 一bbbbbbaaa 因此在我看来,即使当接近无穷大时采用极限,我们的分布也不是实际的正态分布,因为它受和。一个bnnnaaabbb 我想念什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.