Questions tagged «normality-assumption»

许多统计方法都假定数据是正态分布的。使用此标签可对有关正常性假设和检验或关于正常性作为“属性”的疑问。对于正态分布本身的问题,请使用[正态分布]。

16
正常性测试“基本上没有用”吗?
一位前同事曾经对我说过以下话: 我们通常将正态性检验应用于过程的结果,该过程的结果在null下会生成仅渐近或接近正常的随机变量 (“渐近”部分取决于一些我们不能做大的数量);在廉价内存,大数据和快速处理器的时代,正态性测试应 始终拒绝大型(尽管不是那么大)样本的正态分布无效。因此,相反地,正常性测试仅应用于较小的样本,前提是它们可能具有较低的功效且对I型速率的控制较少。 这是有效的论点吗?这是众所周知的论点吗?是否有比“正常”更模糊的零假设的著名检验?


3
如果残差是正态分布的,而y不是,该怎么办?
我有一个奇怪的问题。假设您有一个较小的样本,您要使用简单线性模型分析的因变量高度偏左。因此,您假设üüu不是正态分布的,因为这将导致呈正态分布ÿÿy。但是,当您计算QQ正态图时,有证据表明残差呈正态分布。因此,任何人都可以假设误差项是正态分布的,尽管ÿÿy不是。那么,当误差项看起来是正态分布而ÿÿy不是时,它是什么意思呢?



3
为什么我们在不必线性回归时非常关心正态分布误差项(和同方差)?
我想每次听到有人说残差和/或异方差的非正态性违反OLS假设时,我都会感到沮丧。要估计 OLS模型中的参数,高斯-马尔可夫定理都不需要这些假设。我认为在OLS模型的假设检验中这有多重要,因为假设这些事情为我们提供了t检验,F检验和更通用的Wald统计量的简洁公式。 但是,没有它们就可以进行假设检验。如果仅去除同方差,我们可以轻松计算出健壮的标准误差和聚类标准误差。如果我们完全放弃正态性,我们可以使用自举,并为误差项,似然比和拉格朗日乘数检验指定另一个参数规范。 我们以这种方式进行授课只是一种耻辱,因为我看到很多人都在为自己不必首先遇到的假设而苦苦挣扎。 当我们有能力轻松应用更强大的技术时,为什么我们如此强调这些假设?我缺少重要的东西吗?

3
方差分析假设正态性/残差的正态分布
ANOVA上的Wikipedia页面列出了三个假设,即: 案例独立性–这是简化统计分析模型的假设。 正态性–残差的分布是正态的。 方差的均等(或“同质”),称为均方差... 这里的兴趣点是第二个假设。几个资料来源列出了不同的假设。有人说原始数据是正常的,有人说残差。 弹出几个问题: 残差的正态性和正态分布是否是同一个人(根据Wikipedia条目,我会说正态性是一个属性,并且与残差不直接相关(但可以是残差的属性(括号内的深层嵌套文本,怪异)))? 如果没有,应该采用哪种假设?一?都? 如果正态分布残差的假设是正确的假设,我们是否仅通过检查原始值的直方图的正态性来犯一个严重的错误?

5
解释QQplot-是否有经验法则来确定非正常性?
我在这里阅读了足够的关于QQplots的主题,以了解QQplot比其他正常性测试更有用。但是,我对解释QQplots缺乏经验。我用谷歌搜索了很多;我发现了许多非正常QQ曲线图,但是没有清晰的规则来解释它们,除了看起来与已知分布和“肠感”的比较。 我想知道您是否有(或您知道)任何经验法则可以帮助您确定非正常性。 当我看到以下两个图形时,出现了这个问题: 我了解非正常性的决定取决于数据以及我要如何处理它们。但是,我的问题是:通常,观察到的偏离直线的时间何时构成足以使正态性近似变得不合理的证据? 就其价值而言,Shapiro-Wilk检验未能拒绝两种情况下的非正态性假设。

5
如果两组的t检验和ANOVA相等,为什么它们的假设不相等?
我确定我已经完全把它包裹在头上了,但是我只是想不通。 t检验使用Z分布比较两个正态分布。这就是为什么DATA中存在正常性的原因。 与OLS一样,ANOVA等效于具有虚拟变量的线性回归,并且使用平方和。这就是为什么存在RESIDUALS正常性的假设。 我花了几年的时间,但我认为我终于掌握了这些基本事实。那么为什么t检验等同于两组ANOVA?如果他们甚至不对数据假设相同的东西,怎么能等效呢?

4
归一化与缩放
数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然? 请举例说明。


5
OLS残差不呈正态分布时的回归
该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论。 但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。 违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?


3
因变量的正态性=残差的正态性?
这个问题似乎一直在抬头,我出于我对统计(和理智!)的理解而试图将其斩首。 一般线性模型的假设(t检验,ANOVA,回归等)包括“正态性假设”,但我发现很少对此进行清楚地描述。 我经常碰到统计教科书/手册等,只是简单地指出“正态性假设”适用于每个组(即X类分类变量),我们应该检查每个组与正态性的背离。 问题: 假设是指Y 的值还是Y的残差? 对于特定的组,是否可能具有强烈的Y 值非正态分布(例如,偏斜),但是Y 残差的近似(或更正态分布)呢? 其他资料表明,该假设与模型的残差有关(在存在组的情况下,例如t检验/ ANOVA),我们应该检查这些残差的正态性偏离(即,只有一个QQ图/检验与跑)。 不残差的正态模型意味着残差的正态群体?换句话说,我们是否应该仅检查模型残差(与许多文本中的说明相反)? 为了说明这一点,请考虑以下假设示例: 我想比较两个种群(X)之间的树高(Y)。 在一个种群中,Y的分布强烈向右偏斜(即,大多数树短而高的树很少),而另一种实际上是正常的 总体而言,身高在正态分布的人群中较高(建议可能存在“实际”差异)。 数据转换并不能大大改善第一批人口的分布。 首先,比较完全不同的高度分布的组是否有效? 我在这里如何处理“正常性假设”?一个人群的召回身高不是正态分布。难道我检查残差两个群体单独或残差的模型(t检验)? 请在答复中按数字提及问题,经验表明我很容易迷路或迷路(尤其是我!)。请记住,我不是统计学家。尽管我对统计数据有一个合理的概念(即非技术性!)理解。 PS,我已经搜索了档案并阅读了以下没有巩固我的理解的主题: 方差分析假设正态性/残差的正态分布 残差与样本数据的正态性;那么t检验呢? 正常性测试“基本上没有用”吗? 测试正常性 评估分配的正态性 我使用什么测试来确认残差呈正态分布? 当Kolmogorov-Smirnov检验对于参数检验的残差很显着但偏度和峰度看起来很正常时,该怎么办?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.