Questions tagged «normal-distribution»

正态分布或高斯分布的密度函数为对称的钟形曲线。它是统计中最重要的分布之一。使用[normality]标签询问有关正常性测试的信息。

1
测试大型数据集的正态性-可靠性如何?
我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。 按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。 这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。 考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案) 编辑: 我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案: Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。 幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。 至于为什么我要首先测试正态分布: 一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。

3
泊松分布的正态近似
这里在维基百科上这样说的: 对于足够大的λλλ值(例如λ>1000λ>1000λ>1000),均值λλλ和方差λλλ(标准偏差λ−−√λ\sqrt{\lambda})的正态分布是泊松分布的极佳近似值。如果λλλ大于约10,则如果执行了适当的连续性校正,则正态分布是一个很好的近似值,即P(X≤x),P(X≤x),P(X ≤ x),其中(小写)xxx是一个非负整数,被替换为P(X≤x+0.5).P(X≤x+0.5).P(X ≤ x + 0.5). FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda) 不幸的是,这没有被引用。我希望能够严谨地展示/证明这一点。当\ lambda> 1000时,您怎么能说正态分布是一个很好的近似值,您如何量化这种“优秀”的近似值,使用了哪些度量?λ>1000λ>1000\lambda > 1000 我已经与这引起了最远的是在这里了约翰谈到用浆果Esseen定理和近似误差在这两个的CDF。从我可以看到,他没有尝试任何λ≥1000λ≥1000\lambda \geq 1000。

2
异方差和残差正态性
我猜想我有一个很好的线性回归(这是用于大学项目的,因此我并不一定要非常准确)。 关键是,如果我绘制残差与预测值的关系图,(根据我的老师的话)会有异方差的迹象。 但是,如果我绘制残差的QQ图,则很明显它们是正态分布的。此外,残差的Shapiro检验的值为,因此我认为毫无疑问,残差实际上是正态分布的。ppp0.80.80.8 问题:如果残差呈正态分布,预测值怎么会有异方差?


1
违反正常程度的一个好的指标是什么?该指标上可以附加哪些描述性标签?
内容: 在上一个问题中,@ Robbie在约600个案例中的一项研究中询问为什么正态性检验表明存在显着的非正态性,而这些图却表明正态分布。一些人指出,正态性的显着性检验不是很有用。对于较小的样本,此类测试没有足够的能力来检测轻微的正常违反情况,而对于较大的样本,它们将检测到足够小的无关紧要的正常违反情况。 在我看来,这个问题类似于关于显着性检验和效应大小的辩论。如果仅关注显着性测试,则在有大量样本时,您可以检测到与实际目的无关的微小影响,而对于小型样本,您将没有足够的能力。 在某些情况下,我什至看到教科书建议人们可以拥有一个“太大”的样本,因为微小的影响在统计上很重要。 在意义测试和效果大小的上下文中,一个简单的解决方案是专注于估计感兴趣的效果的大小,而不是迷恋是否存在效果的二元决策规则。对效应大小的置信区间就是这样一种方法,或者您可以采用某种形式的贝叶斯方法。此外,各种研究领域都建立了关于给定效果大小在实际意义上意味着好坏的想法,应用启发式标签,例如“小”,“中”和“大效果”。这也导致了明智的建议,即最大化样本大小,以便在估计给定感兴趣参数时最大化准确性。 这使我想知道,为什么在假设检验,尤其是正态检验方面,没有更广泛地采用基于效果大小的置信区间的类似方法。 题: 数据违反常态程度的最佳单一指标是什么? 还是谈论多个违反正常性的指标(例如,偏度,峰度,离群率)是更好的选择吗? 如何计算指数的置信区间(或使用贝叶斯方法)? 您可以为该索引上的点分配什么样的口头标签,以表明违反正常性的程度(例如,轻度,中度,强烈,极端等)?这样的标签的目的可能是帮助经验不足的分析人员在违反正常性问题时训练他们的直觉。

5
为什么所有关于正态性的检验都会拒绝原假设?
Kolgomorov-Smirnov检验,Shapiro检验等都拒绝分布是正态的假设。但是,当我绘制正常的分位数和直方图时,数据显然是正常的。也许是因为测试的功效很高? 样本量大约为650。那么,这些检验中的至少一项是否应该不能拒绝原假设? 结果: Kolmogorov-Smirnov D 0.05031 Pr > D <0.010 Cramer-von Mises W-Sq 0.30003 Pr > W-Sq <0.005 Anderson-Darling A-Sq 1.66965 Pr > A-Sq <0.005 Chi-Square Chi-Sq 3250.43596 18 Pr > Chi-Sq <0.001

3
估计空间过程的参数
我得到了个正整数值的网格。这些数字表示的强度应与占据该网格位置的人的信念强度相对应(较高的值表示较高的信念)。一个人通常会影响多个网格单元。n×nn×nn\times n 我认为强度的模式应“看起来像高斯”,因为它将有一个高强度的中心位置,然后强度在所有方向上呈放射状逐渐减小。具体来说,我想将值建模为来自“比例高斯”,其中一个参数用于方差,另一个用于比例因子。 有两个复杂的因素: 由于背景噪声和其他影响,没有人不会对应零值,但该值应较小。但是它们可能是不稳定的,并且一开始可能很难将其建模为简单的高斯噪声。 强度范围可以变化。在一个实例中,值的范围可能在1到10之间,而在另一个实例中,值可能在1到100之间。 我正在寻找合适的参数估计策略或相关文献的指南。指出为什么我以错误的方式完全解决这个问题的指针也将不胜感激:)。我一直在阅读有关克里金法和高斯过程的信息,但这对于我的问题而言似乎是很繁琐的工作。


2
如果和是各自均值为零的独立法线变量,则也是法线变量
我试图证明这一说法: 如果和是独立随机变量,X∼N(0,σ21)X∼N(0,σ12)X\sim\mathcal{N}(0,\sigma_1^2)Y∼N(0,σ22)Y∼N(0,σ22)Y\sim\mathcal{N}(0,\sigma_2^2) 那么也是一个普通随机变量。XYX2+Y2√XYX2+Y2\frac{XY}{\sqrt{X^2+Y^2}} 对于特殊情况(例如),我们得到的著名结果是每当和是独立的变量时。实际上,更普遍地知道是独立的变量。σ1=σ2=σσ1=σ2=σ\sigma_1=\sigma_2=\sigmaXYX2+Y2√∼N(0,σ24)XYX2+Y2∼N(0,σ24)\frac{XY}{\sqrt{X^2+Y^2}}\sim\mathcal{N}\left(0,\frac{\sigma^2}{4}\right)XXXYYYN(0,σ2)N(0,σ2)\mathcal{N}(0,\sigma^2)XYX2+Y2√,X2−Y22X2+Y2√XYX2+Y2,X2−Y22X2+Y2\frac{XY}{\sqrt{X^2+Y^2}},\frac{X^2-Y^2}{2\sqrt{X^2+Y^2}}N(0,σ24)N(0,σ24)\mathcal{N}\left(0,\frac{\sigma^2}{4}\right) 最后的证明是使用的变换其中而。实际上,这里和。我试图模仿这个证明来解决手头的问题,但看起来似乎很混乱。(X,Y)→(R,Θ)→(U,V)(X,Y)→(R,Θ)→(U,V)(X,Y)\to(R,\Theta)\to(U,V)x=rcosθ,y=rsinθx=rcos⁡θ,y=rsin⁡θx=r\cos\theta,y=r\sin\thetau=r2sin(2θ),v=r2cos(2θ)u=r2sin⁡(2θ),v=r2cos⁡(2θ)u=\frac{r}{2}\sin(2\theta),v=\frac{r}{2}\cos(2\theta)U=XYX2+Y2√U=XYX2+Y2U=\frac{XY}{\sqrt{X^2+Y^2}}V=X2−Y22X2+Y2√V=X2−Y22X2+Y2V=\frac{X^2-Y^2}{2\sqrt{X^2+Y^2}} 如果我没有做任何错误,那么对于我最终得到的联合密度为(u,v)∈R2(u,v)∈R2(u,v)\in\mathbb{R}^2(U,V)(U,V)(U,V) fU,V(u,v)=2σ1σ2πexp[−u2+v2−−−−−−√(u2+v2−−−−−−√+vσ21+u2+v2−−−−−−√−vσ22)]fU,V(u,v)=2σ1σ2πexp⁡[−u2+v2(u2+v2+vσ12+u2+v2−vσ22)]f_{U,V}(u,v)=\frac{2}{\sigma_1\sigma_2\pi}\exp\left[-\sqrt{u^2+v^2}\left(\frac{\sqrt{u^2+v^2}+v}{\sigma_1^2}+\frac{\sqrt{u^2+v^2}-v}{\sigma_2^2}\right)\right] 我有上面的乘数,因为变换不是一对一的。222 因此,密度将由,该值不易评估。UUU∫RfU,V(u,v)dv∫RfU,V(u,v)dv\displaystyle \int_{\mathbb{R}}f_{U,V}(u,v)\,\mathrm{d}v 现在,我很想知道是否有证据证明我只能与工作,而不必考虑某个来表明是正常的。对我来说,找到的CDF 看起来并不那么有希望。对于的情况,我也想这样做。UUUVVVUUUUUUσ1=σ2=σσ1=σ2=σ\sigma_1=\sigma_2=\sigma 也就是说,如果和是独立的变量,那么我想证明而无需更改变量。如果我能以某种方式争论,那么我就完成了。所以这里有两个问题,一般情况,然后是特殊情况。XXXYYYN(0,σ2)N(0,σ2)\mathcal{N}(0,\sigma^2)Z=2XYX2+Y2√∼N(0,σ2)Z=2XYX2+Y2∼N(0,σ2)Z=\frac{2XY}{\sqrt{X^2+Y^2}}\sim\mathcal{N}(0,\sigma^2)Z=dXZ=dXZ\stackrel{d}{=}X Math.SE上的相关文章: X2−Y2/X2+Y2−−−−−−−√∼N(0,1)X2−Y2/X2+Y2∼N(0,1)X^2-Y^2/ \sqrt{X^2+Y^2}\sim N(0,1)当独立时X,Y∼N(0,1)X,Y∼N(0,1)X,Y\sim N(0,1)。 假设是iid,则表明是iidX,YX,YX,YN(0,1)N(0,1)N(0,1)XYX2+Y2√,X2−Y22X2+Y2√XYX2+Y2,X2−Y22X2+Y2\frac{XY}{\sqrt{X^2+Y^2}},\frac{X^2-Y^2}{2\sqrt{X^2+Y^2}}N(0,14)N(0,14)N(0,\frac{1}{4})。 编辑。 事实上,这个问题是由于我在Feller的《概率论及其应用入门》(第二卷)练习中发现的L. Shepp以及可能的提示: 当然,并且手边有的密度。U=XYX2+Y2√=11X2+1Y2√U=XYX2+Y2=11X2+1Y2U=\frac{XY}{\sqrt{X^2+Y^2}}=\frac{1}{\sqrt{\frac{1}{X^2}+\frac{1}{Y^2}}}1X21X2\frac{1}{X^2} 让我们看看我现在能做什么。除此之外,还欢迎对以上积分提供一些帮助。

2
为什么T统计量需要数据遵循正态分布
我当时在看这个笔记本,但对此陈述感到困惑: 当我们谈论正态性时,我们的意思是数据应该看起来像正态分布。这很重要,因为几个统计检验都依赖于此(例如t统计)。 我不明白为什么T统计量需要数据遵循正态分布。 确实,维基百科说了同样的话: 学生的t分布(或简称为t分布)是连续概率分布族的任何成员,该族在估计正态分布总体的均值时出现 但是,我不明白为什么这个假设是必要的。 它的公式没有向我表明数据必须服从正态分布: 我看了一下它的定义,但我不明白为什么需要这种条件。

3
正态分布的偏度和峰度值的范围
我想知道数据被认为是正态分布的偏度和峰度的取值范围是多少。 我读了很多论据,而且大多数情况下我的回答很混乱。有人说偏度和峰度是正态分布的可接受范围。有人说的偏斜度是可以接受的范围。我在这里找到了详细的讨论:关于此问题的正常数据分布,偏度和峰度的可接受范围是多少?但是我找不到任何决定性的陈述。(- 2 ,2 )(- 1.96 ,1.96 )(−1,1)(−1,1)(-1,1)(−2,2)(−2,2)(-2,2)(−1.96,1.96)(−1.96,1.96)(-1.96,1.96) 决定此间隔的依据是什么?这是一个主观选择吗?或在这些间隔后面有什么数学解释?

1
最小风险分类器的计算阈值?
假设两个类和具有属性并具有分布和。如果我们对于以下成本矩阵具有相等的先验:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5 \\ 1 & 0 \end{bmatrix} 为什么是最低风险(成本)分类器的阈值?x0&lt;0.5x0&lt;0.5x_0 < 0.5 这是我误会的注释示例(即,如何达到此阈值?) 编辑1:我认为对于似然比的阈值,我们可以使用P(C1)/ P(C2)。 编辑2:我从Duda Book on Pattern上添加了一些有关阈值的文本。

1
如何在不过度拟合数据的情况下选择最佳拟合?使用N个正态函数等对双峰分布进行建模
我有一个明显的双峰值分布,我试图适应这一分布。可以使用2个正常函数(双峰)或3个正常函数很好地拟合数据。此外,将数据拟合为3还有一个合理的物理原因。 引入的参数越多,拟合就越完美,因为有了足够的常数,一个人就可以“ 拟合大象 ”。 这是分布,与3条正态(高斯)曲线的总和拟合: 这些是每次拟合的数据。我不确定应该在这里应用哪种测试来确定合适的位置。数据由91点组成。 1正常功能: RSS:1.06231 X ^ 2:3.1674 F.测试:0.3092 2个正常功能: RSS:0.010939 X ^ 2:0.053896 F.测试:0.97101 3种正常功能: RSS:0.00536 X ^ 2:0.02794 F.测试:0.99249 什么是可以用来确定这3个拟合中的哪一个最合适的正确统计检验?显然,1个法线函数拟合不足。那么如何区分2和3? 另外,我主要使用Excel和一些Python来完成此操作;我还不熟悉R或其他统计语言。

1
哪个收敛速度更快,平均值或中位数?
如果我从N(0,1)绘制iid变量,那么均值或中位数收敛得更快吗?快多少? 更具体地说,令是从N(0,1)提取的iid变量序列。定义和为。或哪个收敛到0更快?x1,x2,…x1,x2,…x_1, x_2, \ldots x¯n=1n∑ni=1xix¯n=1n∑i=1nxi\bar{x}_n = \frac{1}{n}\sum_{i=1}^n x_ix~nx~n\tilde{x}_n{x1,x2,…xn}{x1,x2,…xn}\{x_1, x_2, \ldots x_n\}{x¯n}{x¯n}\{\bar{x}_n\}{x~n}{x~n}\{\tilde{x}_n\} 为了具体说明更快收敛的含义:是否存在?如果是这样,那是什么?limn→∞Var(X¯n)/Var(X~n)limn→∞Var(X¯n)/Var(X~n)\lim_{n \to \infty} Var(\bar{X}_n)/Var(\tilde{X}_n)

2
Python中的QQ图
我使用以下代码生成了一个qq图。我知道qq图用于检查数据是否正常分布。我的问题是x和y轴标签在qq图中指示什么,r平方值指示什么? N = 1200 p = 0.53 q = 1000 obs = np.random.binomial(N, p, size = q)/N import scipy.stats as stats z = (obs-np.mean(obs))/np.std(obs) stats.probplot(z, dist="norm", plot=plt) plt.title("Normal Q-Q plot") plt.show() 我知道已经有关于qq图的讨论,但是尽管进行了讨论,但我无法理解的概念。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.