Questions tagged «normality-assumption»

许多统计方法都假定数据是正态分布的。使用此标签可对有关正常性假设和检验或关于正常性作为“属性”的疑问。对于正态分布本身的问题,请使用[正态分布]。



6
Shapiro-Wilk检验的解释
我是统计学的新手,需要您的帮助。 我有一个小样本,如下所示: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 我使用R运行了Shapiro-Wilk测试: shapiro.test(precisionH4U$H4U) 我得到以下结果: W = 0.9502, p-value = 0.6921 现在,如果我假设在0.05处的显着性水平大于p值,则alpha(0.6921> 0.05),并且我不能拒绝关于正态分布的零假设,但是我是否可以说样本具有正态分布? 谢谢!

1
当不满足假设时,回归模型有多不正确?
在拟合回归模型时,如果不满足输出的假设,将会发生什么,特别是: 如果残差不均等会怎样?如果残差在残差与拟合图中显示出增加或减少的模式。 如果残差不是正态分布并且未通过Shapiro-Wilk检验,会发生什么?Shapiro-Wilk正态性检验是一个非常严格的检验,有时,即使Normal-QQ图看起来有些合理,数据也无法通过检验。 如果一个或多个预测变量不是正态分布,在正态QQ图上看起来不正确,或者数据未通过Shapiro-Wilk检验,该怎么办? 我知道没有硬的黑白划分,0.94是正确的,而0.95是错误的,在这个问题上,我想知道: 未能通过正态性意味着对于根据R-Squared值而言非常合适的模型。它变得不那么可靠,还是完全没有用? 偏差在多大程度上可以接受,或者完全可以接受? 当对数据应用转换以满足正态性标准时,如果数据更正常(Shapiro-Wilk测试中的P值较高,正常QQ图上的外观更好),或者该模型无用(等效值或比原始版本差),直到数据通过正常性测试?

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


3
用很小的样本量(例如n = 6)测试正态性是否有意义?
我的样本大小为6。在这种情况下,使用Kolmogorov-Smirnov检验来检验正态性是否有意义?我使用了SPSS。我的样本量很小,因为获取每个样本都需要时间。如果没有意义,那么最低数量的样本中有多少个是有意义的测试? 注意: 我做了一些与源代码有关的实验。该样本是在一个版本的软件(版本A)中编码所花费的时间。 实际上,我的样本量为6,这是在另一个版本的软件(版本B)中所编码的时间。 我想使用一样本t检验进行假设检验,以测试在代码版本A中花费的时间与在代码版本B中花费的时间是否不同(这是我的H1)。一次样本t检验的前提是要测试的数据必须正态分布。这就是为什么我需要测试正常性。

4
Shapiro–Wilk是最好的正态性检验吗?为什么它会比Anderson-Darling等其他测试更好?
我在一些文献中已经读过,Shapiro-Wilk检验被认为是最好的正态性检验,因为对于给定的显着性水平,如果无效假设被否定,则拒绝原假设的概率高于其他假设。正常性测试。αα\alpha 您能否在可能的情况下使用数学参数向我解释,与其他一些正态性检验(例如安德森–达林检验)相比,它的工作原理如何?

5
当样本的分布为非正态分布时,独立样本的t检验有多强?
我已经读过,当样本的分布偏离正态分布时,t检验是“合理可靠的”。当然,重要的是差异的抽样分布。我有两组数据。这些组之一在因变量上有很大的偏差。两组的样本量都非常小(一组中n = 33,另一组中n = 45)。我是否应该假设在这些条件下,我的t检验对于违反正态性假设会很可靠?

5
我可以信任非正态分布DV的ANOVA结果吗?
我用重复测量方差分析分析了一个实验。方差分析是3x2x2x2x3,其中2个对象间因子,3个以内(N = 189)。错误率是因变量。错误率分布的偏斜为3.64,峰度为15.75。偏斜和峰度是90%的错误率表示为0的结果。在这里阅读一些以前的有关正常性测试的线程会使我有些困惑。我认为,如果您拥有的数据不是正态分布的,则尽可能对它进行最佳转换,但是似乎很多人认为使用ANOVA或T检验分析非正态数据是可以接受的。我可以相信方差分析的结果吗? (仅供参考,将来我打算使用二项分布的混合模型在R中分析此类数据)

9
如何确定ping响应时间上该数据代表哪种分布?
我已经采样了一个真实的过程,即网络ping时间。“往返时间”以毫秒为单位。结果绘制在直方图中: Ping时间具有最小值,但尾巴较长。 我想知道这是什么统计分布,以及如何估算其参数。 即使该分布不是正态分布,我仍然可以显示我要实现的目标。 正态分布使用以下功能: 有两个参数 μ(平均值) σ 2 (方差) 参数估计 估算两个参数的公式为: 将这些公式应用于Excel中的数据,我得到: μ= 10.9558(平均值) σ 2 = 67.4578(方差) 使用这些参数,我可以在采样数据上方绘制“ 正态 ”分布: 显然,这不是正态分布。正态分布具有无限的顶部和底部尾部,并且是对称的。这种分布是不对称的。 我将采用什么原则?我将采用哪种流程图来确定这是哪种分布? 假设分布没有负尾巴,而有长正尾巴:什么分布与之匹配? 是否有与您所观察到的分布相匹配的参考? 紧追其后,此分布的公式是什么,以及估算其参数的公式是什么? 我想要获得分布,以便获得“平均”值以及“价差”: 我实际上是在软件中绘制直方图,我想覆盖理论分布: 注意:从math.stackexchange.com交叉发布 更新:160,000个样本 一个月又一个月,以及不计其数的抽样会议,都给出了相同的分布。有必须是一个数学表达式。 哈维建议将数据放在对数刻度上。这是对数刻度上的概率密度: 标签:抽样,统计,参数估计,正态分布 这不是答案,而是问题的附录。这是分配桶。我认为,喜欢冒险的人可能希望将其粘贴到Excel(或您知道的任何程序)中,并可以发现其分布。 值已标准化 Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 …

5
线性模型的假设以及残差不是正态分布时的处理方法
我对线性回归的假设有些困惑。 到目前为止,我检查了是否: 所有的解释变量都与响应变量线性相关。(就是这种情况) 解释变量之间存在共线性。(几乎没有共线性)。 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。 残差是正态分布的。(事实并非如此) 但是我然后阅读以下内容: 经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。 问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗? 问题2 我的残差的QQ正态图如下所示: 这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的原假设: > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差与拟合值看起来像: 如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?


4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.