Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。



1
正态近似于均匀和分布的误差
一种近似于正态分布的幼稚方法是将大约均匀分布在上的IID随机变量加在一起,然后根据中心极限定理对它们进行重新缩放和重新缩放。(旁注:还有更精确的方法,例如Box-Muller变换。)IID随机变量的总和称为均匀总和分布或Irwin-Hall分布。100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1) 用正态分布近似均匀和分布时的误差有多大? 每当出现这种类型的问题以近似IID随机变量的总和时,人们(包括我)都会提出Berry–Esseen定理,这是中心极限定理的有效形式,因为存在第三阶矩: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} 其中是n个 IID随机变量的重新定标和的累积分布函数,\ rho是绝对的第三中心矩E |(X-EX)^ 3 |。,\ sigma是标准偏差,C是绝对常数,可以取为1甚至1/2。FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 这是不令人满意的。在我看来,对于离散的二​​项式分布,Berry-Esseen估计最接近锐利,对于对称的二项式分布,最大误差为000。最大的错误来自最大的跳跃。但是,统一的总和分布没有跳跃。 数值测试表明,误差的减小比c / \ sqrt n更快c/n−−√c/nc/\sqrt n。 使用C=1/2C=1/2C=1/2,Berry–Esseen估计为|Fn(x)−Φ(x)|≤12132112√3n−−√≈0.650n−−√|Fn(x)−Φ(x)|≤121321123n≈0.650n|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n} 这对于n=10,20,40n=10,20,40n=10,20,40为约0.2050.2050.205,0.1450.1450.145,和0.1030.1030.103,分别。对于实际的最大差异n=10,20,40n=10,20,40n=10, 20, 40似乎是约0.002810.002810.00281,0.001390.001390.00139和0.0006920.0006920.000692,分别,这要小得多,并且似乎落入如c/nc/nc/n,而不是c/n−−√c/nc/\sqrt n。


2
在检验和检验之间选择
背景:我正在向工作中的同事进行假设检验的介绍,并且对它的大部分内容都了解得很好,但是有一个方面是我将自己束之高阁,试图理解并向他人解释。 这就是我想知道的(如果错误,请更正!) 如果方差已知,则统计量将是正常的;如果方差未知,则遵循分布ttt CLT(中心极限定理):样本平均值的采样分布对于足够大的大约是(对于高度偏斜的分布,可能是,最大可能是)nnn303030300300300 该 -配送可以认为是正常的自由度ttt&gt;30&gt;30> 30 如果满足以下条件,则使用 -test:zzz 已知总体正态和方差(对于任何样本量) 总体正常,方差未知且(由于CLT)n&gt;30n&gt;30n>30 人口二项式,,np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 如果满足以下条件,则使用检验:ttt 总体正常,方差未知,n&lt;30n&lt;30n<30 不了解总体或方差且,但样本数据看起来正常/通过测试等,因此可以认为总体正常n&lt;30n&lt;30n<30 所以我剩下: 对于样本和(?),不知道有关总体和方差的已知/未知信息。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 所以我的问题是: 当抽样分布看起来非正态时,您可以假设在什么样本量下(对总体分布或方差一无所知)均值的抽样分布是正态的(即CLT已经加入)?我知道有些发行版需要,但是有些资源似乎说每当时就使用 -test 。n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 对于我不确定的情况,我想我看一下数据是否正常。现在,如果样本数据看起来正常,我是否应该使用 -test(因为假设总体正常,并且因为)?zzzn&gt;30n&gt;30n>30 我不确定的案例样本数据在哪里看起来不正常呢?在任何情况下,您仍然会使用检验或检验,还是总是希望转换/使用非参数检验?我知道,由于CLT,在的某个值处,均值的采样分布将近似于正态,但是样本数据不会告诉我值是多少。样本数据可能是非正态的,而样本均值遵循正态/。在某些情况下,您会进行转换/使用非参数检验,而实际上均值的采样分布是正态/但您无法分辨吗? tttzzznnnnnntttttt

1
R中qqline()产生的行的用途是什么?
的qqnorm()一个R函数产生一个正常QQ-情节和qqline()增加了穿过第一和第三四分位数的线。这条线的起源是什么?检查正常性是否有帮助?这不是经典线(线性缩放后,对角线)。ÿ= xÿ=Xy=x 这是一个例子。首先,我比较的理论分布函数经验分布函数: 现在我绘制QQ-情节与线Ŷ = μ + σ X ; 该图大致对应于上一个图的(非线性)缩放比例: 但是,这是带有R qqline的qq图: 这最后一个图没有像第一个图那样显示偏离。ñ(μ^,σ^2)ñ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)ÿ= μ^+ σ^Xÿ=μ^+σ^Xy=\hat\mu + \hat\sigma x

2
最大似然估计-多元高斯
语境 多元高斯在机器学习中经常出现,并且以下结果在许多没有衍生的机器学习书籍和课程中使用。 给定以m × p尺寸 的矩阵形式给出的数据,如果我们假设数据遵循 参数均值为μ(p × 1)和协方差矩阵Σ(p × p)的p变量高斯分布,则最大似然估计为由:XX\mathbf{X} m × pm×p m \times ppppμμ\mup × 1p×1p \times 1 ΣΣ\Sigmap × pp×pp \times p μ^= 1米∑米我= 1X(我)= x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^= 1米∑米我= 1(x(我)- μ^)(x(我)- μ^)ŤΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - …

4
为什么增加硬币翻转的样本大小不能改善法线曲线逼近度?
我正在阅读《统计》(弗里曼,皮萨尼,普尔韦斯)这本书,并尝试重现一个例子,其中一个硬币被扔了50次,计数的数目正好重复了1000次。 首先,我将投掷次数(样本大小)保持在1000,并增加了重复次数。重复次数越多,数据越符合正态曲线。 因此,接下来,我尝试将重复次数固定为1,000,并增加了样本量。样本数量越大,法线曲线似乎越不适合数据。这似乎与本书示例相矛盾,本书示例随着样本数量的增加更好地逼近正态曲线。 我想看看如果增加样本量会发生什么情况,但是重复次数固定为10,000。这似乎也与该书矛盾。 有什么想法我做错了吗? 下面的代码和图表。 %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), max(sums) lnspc = np.linspace(xmin, xmax, len(sums)) m, s = stats.norm.fit(sums) # get mean and standard deviation pdf_g = stats.norm.pdf(lnspc, m, …

3
当和时极坐标是如何分布的?
令随机点的笛卡尔x,yx,yx,y坐标为st (x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)。 因此,半径ρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 + y^2}并不是ρρ\rho的pdf所暗示的均匀分布。 尽管如此,我希望θ=arctanyxθ=arctan⁡yx\theta = \arctan{\frac{y}{x}}几乎是均匀的,不包括由于边缘4个残差而导致的假象: 以下是grafically计算概率密度函数的θθ\theta和ρρ\rho: 现在,如果我让分布为st那么似乎是均匀分布的:x,yx,yx,yx,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta 为什么当时不均匀而当时是均匀的吗?θθ\theta(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)x,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2) 我使用的Matlab代码: number_of_points = 100000; rng('shuffle') a = -10; b = 10; r = (b-a).*randn(2,number_of_points); r = reshape(r, [2,number_of_points]); I = eye(2); e1 = …



4
数据正态分布的原因
有哪些定理可以解释(即生成)为什么现实世界中的数据可以正态分布? 我知道有两个: 中心极限定理(当然),它告诉我们具有均值和方差(即使它们的分布不相同)的几个独立随机变量的总和也倾向于正态分布 令X和Y为具有不同密度的独立连续RV,以使它们的联合密度仅取决于 +。那么X和Y是正常的。X2X2x^2ÿ2ÿ2y^2 (来自mathexchange的跨帖子) 编辑: 为澄清起见,我对正态分布的真实世界数据没有任何主张。我只是在问一些定理,这些定理可以洞察什么样的过程可能导致数据呈正态分布。

3
函数在统计中的重要性是什么?
在我的微积分课上,我们遇到了函数或“钟形曲线”,并被告知该函数在统计中有广泛的应用。e−x2e−x2e^{-x^2} 出于好奇,我想问:函数在统计中真的很重要吗?如果是这样,那么使有用的原因是什么,它的一些应用是什么?e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2} 我在互联网上找不到有关此功能的太多信息,但是经过一些研究,我发现钟形曲线通常与正态分布之间存在联系。一个维基百科页面链接这些类型的功能,统计应用,由我强调,各国: “正态分布被认为是统计中最突出的概率分布。其原因如下:1首先,正态分布由中心极限定理产生,该极限定理指出,在温和条件下,抽取了大量随机变量的总和不论原始分布的形式如何,来自同一分布的近似正态分布。” 因此,如果我从某种调查等中收集了大量数据,它们可以在类的函数之间平均分配。函数是对称的,对称性也就是对称的,即它对正态分布的有用性,是什么使它在统计中如此有用?我只是在推测。e−x2e−x2e^{-x^2} 通常,什么使在统计中有用?如果正态分布是唯一的区域,那么是什么使在正态分布的其他高斯类型函数中唯一或特别有用?e−x2e−x2e^{-x^2}e−x2e−x2e^{-x^2}

3
为什么随着样本数量的增加,t分布变得更正常?
根据Wikipedia,我了解到,当样本是来自正态分布总体的iid观测值时,t分布就是t值的样本分布。但是,我不直观地理解为什么这会导致t分布的形状从肥尾变为几乎完全正常。 我得到的是,如果您从正态分布中进行采样,那么如果您进行大样本采样,它将类似于该分布,但是我不知道为什么它从它的胖尾形状开始。

2
日志转换是否是对非正常数据进行t测试的有效技术?
在审查一篇论文时,作者指出:“在进行t检验以满足正态性的前提假设之前,使用自然对数对表现出偏态分布的连续结果变量进行了转换。” 这是分析非正态数据的可接受方法,尤其是在基础分布不一定是对数正态的情况下吗? 这可能是一个非常愚蠢的问题,但我之前从未见过。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.