Questions tagged «normality-assumption»

许多统计方法都假定数据是正态分布的。使用此标签可对有关正常性假设和检验或关于正常性作为“属性”的疑问。对于正态分布本身的问题,请使用[正态分布]。

2
我们可以在自然界某处看到法线的形状吗?
我不想知道自然界中某些现象是否具有正态分布,但是我们是否可以在某个地方看到正态曲线的形状,例如在高尔顿盒中可以看到的。从Wikipedia看到此图。 请注意,自然界中可以直接看到许多数学形状或曲线,例如在蜗牛中可以找到黄金均值和对数螺旋。 第一个天真的答案是未倾斜的山丘是否经常“拟合”正态分布:-)。

4
转化以增加正常rv的峰度和偏度
我正在研究一种算法,该算法依赖于观测值 s呈正态分布这一事实,并且我想凭经验测试该假设对算法的鲁棒性。YYY 为此,我正在寻找一系列转换,这些转换将逐渐破坏的正态性。例如,如果正常,则其偏度T1(),…,Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY=0=0= 0且峰度=3=3= 3,并且找到一个逐渐增加两者的转换序列会很好。 我的想法是模拟一些近似正态分布的数据YYY并在其上测试算法。在每个变换后的数据集T1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y),使用测试算法,以查看输出变化了多少。 请注意,我不控制模拟YYY的分布,因此无法使用对法线进行一般化的分布(例如“偏斜广义误差分布”)对它们进行模拟。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
中心极限定理需要大样本量的分布示例
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯X¯\bar{X}。 我知道这还不够所有发行版。 我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。 我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。

2
当数据不是正态分布时,如何测试两组均值之间的差异?
我将消除所有生物学上的细节和实验,只引用眼前的问题以及我在统计学上所做的事情。我想知道它是否正确,如果不正确,如何进行。如果数据(或我的解释)不够清楚,我将尝试通过编辑来更好地解释。 假设我有两个组/观测值X和Y,大小分别为和N y = 40。我想知道这两个观察的平均值是否相等。我的第一个问题是:ñX= 215Nx=215N_x=215ñÿ= 40Ny=40N_y=40 如果满足假设,在这里使用参数两样本t检验是否有意义?我问这是因为据我了解,通常在尺寸较小时使用它吗? 我绘制了X和Y的直方图,并且它们不是正态分布的,这是两次样本t检验的假设之一。我的困惑是,我认为它们是两个人口,这就是为什么我检查正态分布。但是接下来我要进行两次样本t检验... 是吗? 根据中心极限定理,我了解到如果您多次执行抽样(根据人口规模是否进行重复)并每次计算样本平均值,那么样本将近似呈正态分布。并且,此随机变量的均值将很好地估计总体均值。因此,我决定在X和Y上执行此操作1000次,并获得样本,然后为每个样本的平均值分配一个随机变量。情节是非常正态分布的。X和Y的平均值分别为4.2和15.8(与总体+-0.15相同),方差分别为0.95和12.11。 我对这两个观测值(每个有1000个数据点)进行了t检验,它们具有不相等的方差,因为它们有很大差异(0.95和12.11)。零假设被拒绝了。 这有道理吗?这种正确/有意义的方法还是两个样本的z检验足够了还是完全错误的? 为了确保(在原始X和Y上)我也执行了非参数Wilcoxon检验,并且在那里也令人信服地拒绝了原假设。如果我以前的方法完全错误,我认为进行非参数检验是好的,除了统计功效之外? 在两种情况下,均值均存在显着差异。但是,我想知道这两种方法中的一种还是两种都是错误的/完全错误的,如果是,那有什么替代方法?

4
异常值的“框线图”定义的依据是什么?
Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 − Q 1和Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。 例如,假设您从以下序列开始: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) 此序列创建了4000个数据点的百分位排名。 测试qnorm本系列的正态性会导致: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))(按预期方式)直线数据: 如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))产生结果: 当样本大小足够大时,箱形图不同于shapiro.test,ad.test或, qqnorm将几个点标识为离群值(如本例所示)。

1
为什么我们假设错误是正态分布的?
我想知道为什么在对误差建模时使用高斯假设。在斯坦福大学的ML课程中,Ng教授基本上以两种方式对其进行描述: 在数学上很方便。(与最小二乘拟合有关,易于通过伪逆求解) 由于中心极限定理,我们可以假设存在许多影响过程的潜在事实,并且这些单个错误的总和往往表现为零均值正态分布。实际上,情况似乎是这样。 我实际上对第二部分感兴趣。据我所知,中心极限定理适用于iid样本,但我们不能保证基础样本为iid。 您对误差的高斯假设有任何想法吗?

2
为什么F检验对正态性假设如此敏感?
为什么方差差异的F检验对正态分布的假设如此敏感,即使对于大?NNN 我试图在网上搜索并访问了图书馆,但是没有一个给出好的答案。它说测试对于违反正态分布假设非常敏感,但是我不明白为什么。有人对此有很好的答案吗?

5
样本均值的抽样分布如何近似于总体均值?
我尝试学习统计信息是因为我发现它是如此普遍,以至于如果我对它的理解不正确,它就会禁止我学习一些东西。我很难理解样本均值的抽样分布这一概念。我不明白某些书籍和网站对它的解释方式。我想我有一个了解,但不确定它是否正确。以下是我试图理解它的尝试。 当我们谈论某种呈正态分布的现象时,通常(并非总是)涉及人口。 我们希望使用推论统计来预测有关某些人口的某些信息,但是并没有所有的数据。我们使用随机抽样,大小为n的每个样本被选择的可能性均等。 因此,我们抽取大量样本,假设为100,然后根据中心极限定理,这些样本的均值分布将近似为正态。样本均值的平均值将近似于总体均值。 现在我不明白的是,很多时候您会看到“一个100个人的样本……”我们是否需要10个或100个100个人的样本来近似均值人口?还是我们可以抽取一个足够大的样本(比如说1000),然后说均值将近似于总体均值?还是我们从1000人中抽取了1000个人,然后从100个人中随机抽取了100个人中的100个人,然后将其用作近似值? 是否采取足够大的样本来近似(几乎)均值始终有效?人口甚至需要正常工作才能正常工作吗?

2
重复测量方差分析:正态性假设是什么?
我对重复测量方差分析中的正态性假设感到困惑。具体来说,我想知道究竟应该满足哪种常态。在阅读有关简历的文献和答案时,我遇到了这种假设的三种不同的措词。 每个(重复)条件中的因变量应正常分布。 人们常说rANOVA与ANOVA具有相同的假设,另外还有球形度。这就是Field的发现统计资料以及Wikipedia 关于该主题和Lowry的文章的主张。 残差(所有可能的对之间的差异?)应正态分布。 我发现在多个答案此声明CV(1,2)。通过将rANOVA 与配对t检验进行类比,这似乎也很直观。 应该满足多元正态性。 维基百科和此资源提到了这一点。另外,我知道,朗诺可以换用MANOVA,这可能值得这个要求。 这些等效吗?我知道多元正态性意味着DV的任何线性组合都是正态分布的,因此3.如果我正确理解后者,自然会包括2.。 如果这些都不相同,那么rANOVA的“真实”假设是什么?你能提供参考吗? 在我看来,对第一个主张的支持最大。但是,这与此处通常提供的答案不一致。 线性混合模型 由于@utobi的提示,我现在了解如何将rANOVA重新描述为线性混合模型。具体来说,为了建模血压随时间的变化,我将期望值建模为: 其中y i j是血压的测量值,a i是平均血压第i个对象的压力,而t i j为第i个对象被测量的第j次,b iE[yij]=ai+bitij,E[yij]=ai+bitij, \mathrm{E}\left[y_{ij}\right]=a_{i}+b_i t_{ij}, yijyijy_{ij}aiaia_{i}iiitijtijt_{ij}jjjiiibibib_i表示该变化的血压是跨学科的不同了。两种效果都被认为是随机的,因为受试者的样本只是人群的随机子集,这是最主要的兴趣所在。 最后,我尝试考虑这对正常性意味着什么,但收效甚微。释义McCulloch和Searle(2001,p。35. Eq。(2.14)): E[yij|ai]yij|aiai=ai∼indep. N(ai,σ2)∼i.i.d. N(a,σ2a)E[yij|ai]=aiyij|ai∼indep. N(ai,σ2)ai∼i.i.d. N(a,σa2)\begin{align} \mathrm{E}\left[y_{ij}|a_i\right] &= a_i \\[5pt] y_{ij}|a_i &\sim \mathrm{indep.}\ \mathcal{N}(a_i,\sigma^2) \\[5pt] a_i &\sim \mathrm{i.i.d.}\ \mathcal{N}(a,\sigma_a^2) \end{align} 我明白这意味着 4.每个人的数据都需要正态分布,但这在很少的时间点进行测试是不合理的。 我用第三种表达的意思是 5.各个主题的平均值呈正态分布。请注意,这是上述三种基础之上的另外两种不同的可能性。 McCulloch,CE和Searle,SR(2001)。广义模型,线性模型和混合模型。纽约:John …

1
R:检验线性模型残差的正态性-使用哪些残差
我想对线性模型的残差进行Shapiro Wilk的W检验和Kolmogorov-Smirnov检验,以检查正态性。我只是想知道应该使用什么残差-原始残差,Pearson残差,学生化残差或标准化残差?对于Shapiro-Wilk的W检验,原始和Pearson残差的结果似乎相同,而其他残差的结果则不同。 fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # W = 0.9058, p-value = 0.008722 shapiro.test(res4) # W = 0.9205, p-value = 0.02143 关于KS的同样问题,以及是否应按照以下方法针对正态分布(范数)测试残差 ks.test(res1, "pnorm") # …

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
偏离ANOVA中的正态性假设:峰度或偏度更重要吗?
Kutner等人应用线性统计模型。陈述了以下有关偏离ANOVA模型正态性假设的内容:就推断的影响而言,误差分布的峰度(比正态分布或多或少达到峰值)比分布的偏度更为重要。 我对此声明感到有点困惑,并且没有在书中或在线上找到任何相关信息。我很困惑,因为我还了解到,尾巴较重的QQ曲线表明线性回归模型的正态性假设“足够好”,而偏斜的QQ曲线则更受关注(即,进行转换可能会合适) 。 我是否对ANOVA进行同样的推理,并且对单词的选择(就推理的影响而言更重要)选择得很差,是否正确?也就是说,偏斜的分布会产生更严重的后果,应避免,而少量峰度是可以接受的。 编辑:正如rolando2所说,很难说一个在所有情况下都比另一个更重要,但是我只是在寻找一些一般的见识。我的主要问题是,我被告知,在简单的线性回归中,尾巴较重(=峰度?)的QQ曲线是可以的,因为F检验对此非常有力。另一方面,倾斜的QQ曲线(抛物线形)通常是一个更大的问题。尽管ANOVA模型可以转换为回归模型,并且应该具有相同的假设,但这似乎与我的教科书为ANOVA提供的指导方针直接背道而驰。 我确信我忽略了某件事,或者我有一个错误的假设,但是我无法弄清楚这可能是什么。

1
为什么不总是使用引导CI?
我想知道自举CI(以及Bca中的BCa)对正态分布数据的性能如何。似乎有很多工作要检查它们在各种类型的分布上的性能,但是在正态分布的数据上找不到任何东西。由于首先学习似乎很显然,所以我认为论文太旧了。 我使用R引导程序包进行了一些蒙特卡洛仿真,发现引导CI与精确的CI一致,尽管对于小样本(N <20),它们倾向于比较宽松(较小的CI)。对于足够大的样本,它们基本上是相同的。 这使我想知道是否有充分的理由不总是使用引导程序。鉴于评估分布是否正常的难度很大,并且存在许多陷阱,因此,不管分布如何,都不决定和报告引导配置项似乎是合理的。我了解不系统地使用非参数测试的动机,因为它们的功能较少,但是我的模拟告诉我,引导CI并非如此。它们甚至更小。 让我感到困扰的一个类似问题是,为什么不总是使用中位数作为集中趋势的度量。人们通常建议使用它来表征非正态分布的数据,但是由于中位数与正态分布数据的平均值相同,为什么要加以区别?如果我们可以摆脱确定分布是否正常的过程,这似乎是非常有益的。 我很好奇您对这些问题的想法,以及它们是否曾经被讨论过。参考将不胜感激。 谢谢! 皮埃尔

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.