Questions tagged «normality-assumption»

许多统计方法都假定数据是正态分布的。使用此标签可对有关正常性假设和检验或关于正常性作为“属性”的疑问。对于正态分布本身的问题,请使用[正态分布]。


2
QQ图与直方图不匹配
我有一个直方图,内核密度和拟合的正态分布的财务日志收益,它们已转换为损失(符号已更改),以及这些数据的正态QQ图: QQ图清楚地表明尾巴未正确安装。但是,如果我看一下直方图和拟合的正态分布(蓝色),即使0.0左右的值也不能正确拟合。因此,QQ图显示仅尾部未正确拟合,但显然整个分布未正确拟合。为什么这不会显示在QQ图中?

4
我可以对偏斜和非正常数据使用Z分数吗?[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 5年前关闭。 我一直在处理一些过程周期时间数据,并使用标准的z分数进行缩放,以便在整个周期时间的各个部分之间进行比较。 由于数据严重右偏/非正常,我是否应该使用其他转换?(“异常值”永远不会花费消极时间,并且通常比“平均”花费更长的时间) 使用z分数似乎仍然“有效” ... ############### # R code ############### mydata <- rweibull(1000,1,1.5) hist(mydata) hist(scale(mydata))

2
未配对的t检验需要哪些正态假设?他们什么时候见面?
如果我们希望进行配对的t检验,则要求(如果我理解正确的话)是匹配的度量单位之间的平均差应正态分布。 在成对的t检验中,即铰接式(AFAIK)要求匹配的度量单位之间的差异将呈正态分布(即使两个比较组中每个组的分布均不呈正态)。 但是,在不成对的t检验中,我们不能谈论匹配的单位之间的差异,因此我们要求两组的观察值是正常的,以使它们的均值差异是正常的。这引出我的问题: 两个非正态分布是否有可能使它们的均值之差呈正态分布?(因此,据我所知,满足了我们对它们执行未配对t检验的必要要求)。 更新:(谢谢大家的回答)我看到我们正在寻找的一般规则确实是均值的差将是正常的,由于CLT,这似乎是一个很好的假设(在足够大的n下)。对于这对于不成对的t检验如何起作用,这对我来说是令人惊奇的(不足为奇,仅是令人惊奇的),但对于单样本t检验,效果却不佳。这是一些R代码来说明: n1 <- 10 n2 <- 10 mean1 <- 50 mean2 <- 50 R <- 10000 # diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2))) # hist(diffs) P <- numeric(R) MEAN <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) y2 <- runif(n2, 0, …

1
测试大型数据集的正态性-可靠性如何?
我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。 按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。 这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。 考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案) 编辑: 我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案: Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。 幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。 至于为什么我要首先测试正态分布: 一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。

1
违反正常程度的一个好的指标是什么?该指标上可以附加哪些描述性标签?
内容: 在上一个问题中,@ Robbie在约600个案例中的一项研究中询问为什么正态性检验表明存在显着的非正态性,而这些图却表明正态分布。一些人指出,正态性的显着性检验不是很有用。对于较小的样本,此类测试没有足够的能力来检测轻微的正常违反情况,而对于较大的样本,它们将检测到足够小的无关紧要的正常违反情况。 在我看来,这个问题类似于关于显着性检验和效应大小的辩论。如果仅关注显着性测试,则在有大量样本时,您可以检测到与实际目的无关的微小影响,而对于小型样本,您将没有足够的能力。 在某些情况下,我什至看到教科书建议人们可以拥有一个“太大”的样本,因为微小的影响在统计上很重要。 在意义测试和效果大小的上下文中,一个简单的解决方案是专注于估计感兴趣的效果的大小,而不是迷恋是否存在效果的二元决策规则。对效应大小的置信区间就是这样一种方法,或者您可以采用某种形式的贝叶斯方法。此外,各种研究领域都建立了关于给定效果大小在实际意义上意味着好坏的想法,应用启发式标签,例如“小”,“中”和“大效果”。这也导致了明智的建议,即最大化样本大小,以便在估计给定感兴趣参数时最大化准确性。 这使我想知道,为什么在假设检验,尤其是正态检验方面,没有更广泛地采用基于效果大小的置信区间的类似方法。 题: 数据违反常态程度的最佳单一指标是什么? 还是谈论多个违反正常性的指标(例如,偏度,峰度,离群率)是更好的选择吗? 如何计算指数的置信区间(或使用贝叶斯方法)? 您可以为该索引上的点分配什么样的口头标签,以表明违反正常性的程度(例如,轻度,中度,强烈,极端等)?这样的标签的目的可能是帮助经验不足的分析人员在违反正常性问题时训练他们的直觉。

1
如果样本呈正态分布,但差异不大,可以使用配对t检验吗?
我有一个实验的数据,其中我在相同的初始条件下应用了两种不同的处理方法,在每种情况下,结果都是0到500之间的整数。我想使用配对t检验来确定两种疗法产生的效果是否显着不同。对于每个处理组的结果是正态分布,但差异在每对之间不正态分布(非对称+一个长尾巴)。 在这种情况下,可以使用配对t检验,还是违反正态性假设,这意味着我应该使用某种非参数检验?

1
二次形式的渐近正态性
令xx\mathbf{x}为从提取的随机向量PPP。考虑一个样本{xi}ni=1∼i.i.d.P{xi}i=1n∼i.i.d.P\{ \mathbf{x}_i \}_{i=1}^n \stackrel{i.i.d.}{\sim} P。限定x¯n:=1n∑ni=1xix¯n:=1n∑i=1nxi\bar{\mathbf{x}}_n := \frac{1}{n} \sum_{i=1}^n \mathbf{x}_i,和 c ^:=1C^:=1n∑ni=1(xi−x¯n)(xi−x¯n)⊤C^:=1n∑i=1n(xi−x¯n)(xi−x¯n)⊤\hat{C} := \frac{1}{n} \sum_{i=1}^n (\mathbf{x}_i - \bar{\mathbf{x}}_n) (\mathbf{x}_i - \bar{\mathbf{x}}_n)^\top。让和。μ:=Ex∼P[x]μ:=Ex∼P[x]\boldsymbol{\mu} := \mathbb{E}_{\mathbf{x}\sim P}[\mathbf{x}]C:=covx∼P[x,x]C:=covx∼P[x,x]C:=\mathrm{cov}_{\mathbf{x} \sim P}[\mathbf{x}, \mathbf{x}] 根据中心极限定理,假设 n−−√(x¯n−μ)→dN(0,C),n(x¯n−μ)→dN(0,C), \sqrt{n} \big( \bar{\mathbf{x}}_n - \boldsymbol{\mu} \big) \stackrel{d}{\to} \mathcal{N}(\boldsymbol{0}, C), 其中是满秩协方差矩阵。CCC 问题:我如何证明(或反对) n−−√(x¯⊤n(C^+γnI)−1x¯n−μ⊤C−1μ)→dN(0,v2),n(x¯n⊤(C^+γnI)−1x¯n−μ⊤C−1μ)→dN(0,v2),\sqrt{n} \big( \bar{\mathbf{x}}_n^\top (\hat{C} + \gamma_n I)^{-1} \bar{\mathbf{x}}_n - \boldsymbol{\mu}^\top C^{-1} …

3
“反转”的夏皮罗-威尔克
根据维基百科,Sharipo-Wilk检验测试零假设()“总体呈正态分布”。H0H0H_0 我正在寻找类似的正态性检验,其 “总体不是正态分布”。H0H0H_0 具有这样的试验中,我要计算一个 -值拒绝ħ 0在显着性水平α IFF p &lt; α ; 证明我的人口呈正态分布。pppH0H0H_0αα\alphap &lt; αp&lt;αp < \alpha 请注意,使用Sharipo-Wilk检验并接受 iff p &gt; α是不正确的方法,因为这从字面上意味着“我们没有足够的证据证明H0不成立”。H0H0H_0p &gt; αp&gt;αp > \alpha 相关线程-p -value的含义ppp,正常性测试没用吗?,但看不到我的问题的解决方案。 问题:我应该使用哪种测试?它在R中实现吗?

2
如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?
我为“受访者年龄”创建了一个直方图,并设法获得了一个非常漂亮的钟形曲线,由此得出的结论是正态分布。 然后,我在n = 169的SPSS中运行正态性检验。Kolmogorov-Smirnov检验的p值(Sig。)小于0.05,因此数据违反了正态性假设。 为什么测试表明年龄分布不正常,但直方图显示出钟形曲线,据我所知这是正常的?我应该遵循哪个结果?

5
测试重复测量方差分析的正态假设?(在R中)
因此,假设有必要测试方差分析的正态性假设(请参见1和2) 如何在R中对其进行测试? 我希望做这样的事情: ## From Venables and Ripley (2002) p.165. utils::data(npk, package="MASS") npk.aovE &lt;- aov(yield ~ N*P*K + Error(block), npk) residuals(npk.aovE) qqnorm(residuals(npk.aov)) 这是行不通的,因为“残差”没有针对重复测量方差分析的方法(对此也无法预测)。 那么在这种情况下应该怎么做? 是否可以从没有误差项的情况下简单地从同一拟合模型中提取残差?我对文献还不够熟悉,无法知道这是否有效,在此先感谢您的任何建议。

1
为什么非正态分布的错误会影响我们的重要性陈述的有效性?
考虑OLS模型时,存在一个正态性假设,即误差是正态分布的。我一直在浏览交叉验证,这听起来像Y和X不一定是正常的,以便使错误正常。我的问题是,为什么当我们出现非正态分布的错误时,重要性声明的有效性受到了损害?为什么置信区间太宽或太窄?

5
除了平方根,对数等普通转换外,还常用哪些其他归一化转换?
在测试成绩的分析中(例如在教育或心理学中),常用的分析技术通常会假设数据是正态分布的。但是,有时分数往往会与正常水平大相径庭。 我熟悉一些基本的规范化转换,例如:平方根,对数,用于减少正偏斜的倒数转换,用于减少负偏斜的上述反射形式,平方函数的平方。我听说过反正弦变换和幂变换,尽管我并不真正了解它们。 因此,我对分析师通常使用的其他转换感到好奇吗?

1
正态分布误差和中心极限定理
在Wooldridge的《计量经济学入门》一书中有一个报价: 证明误差的正态分布合理的参数通常是这样的:由于是影响的许多不同的未观察因素的总和,因此我们可以调用中心极限定理来得出具有近似正态分布的结论。uuuyyyuuu 此引用与线性模型假设之一有关,即: u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) 其中uuu是总体模型中的误差项。 现在,据我所知,中心极限定理指出 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (其中Yi¯¯¯¯¯Yi¯\overline{Y_i} 是从任何具有均值μμμ和方差σ^ 2的总体中抽取的随机样本的平均值σ2σ2σ^2) 接近标准正态变量的n→∞n→∞n \rightarrow \infty。 题: 帮助我了解Z_i的渐近正态性如何ZiZiZ_i暗示u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)

1
什么时候可以写出“我们假设经验分布为正态分布”?
在医学等应用学科的教学中,根深蒂固的是,人群中生物医学数量的测量遵循正常的“钟形曲线”。Google对字符串“我们假定为正态分布”的搜索返回结果!听起来,“在气候变化研究中,“鉴于极少的极端数据点,我们假设温度异常呈正态分布”。或在企鹅的争议较小的文件上“假设雏鸡的孵化日期呈正态分布”;或 “我们假设GDP增长冲击呈正态分布”,23,90023,900\small 23,900, ... 和其他东西)。 最近,我发现自己质疑计数数据由于其严格的正性而被视为正态分布。当然,计数数据是离散的,这使得它们的正常性更加人为。但是,即使撇开后面的观点,为什么应该将连续的经验性测量(例如,体重,身高或血糖浓度)(通常被认为是“连续的”)视为正常的呢?他们所拥有的负面已实现的观察结果绝不会超过计数! 我了解到,当标准偏差明显低于平均值时,表明负值很少(“ 95%范围检查”),这可能是一个实际的假设,并且频率直方图也可以支持该偏差。但是问题似乎并不简单,快速搜索便产生了有趣的东西。 在《自然》杂志上,我们可以在DF Heath的一封信中找到以下陈述:“我想指出的是,对于某些类型的数据的统计分析,假设数据是从正常人群中提取的,通常是错误的。对数正态分布的假设更好。这种选择已被统计学家,经济学家和物理学家广泛使用,但由于某些原因,其他学科的科学家常常忽略了这一点。” Limpert指出,“对数正态模型可能在许多科学家认为正态为有效近似的意义上可以作为近似值”,同时指出正态拟合优度检验的功效较低,并且选择困难处理小样本时,凭经验得出正确的分布。 因此,问题是,“在没有进一步支持证据的情况下,何时可以接受应用科学中经验度量的正态分布?” 而且,为什么其他选择(例如对数正态)没有,甚至可能不会被采用?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.