Questions tagged «wilcoxon-mann-whitney»

Wilcoxon秩和检验(也称为Mann-Whitney U检验)是一种非参数秩检验,用于评估两个样本中的一个样本是否具有比另一个样本更大的值。

7
如何在t检验或非参数检验之间进行选择,例如小样本中的Wilcoxon
某些假设可以通过学生t检验(可能在两样本案例中使用Welch的不等方差校正)进行检验,也可以通过非参数检验(例如Wilcoxon配对符号秩检验,Wilcoxon-Mann-Whitney U检验,或配对符号测试。我们如何就最适合的测试做出有原则的决定,尤其是在样本量很小的情况下? 许多介绍性教科书和讲义提供了一种“流程图”方法,在此方法中检查正态性(不建议(通过正态性检验,或更广泛地通过QQ图或类似方法))以在t检验或非参数检验之间做出决定。对于不成对的两样本t检验,可以进一步检查方差的均匀性,以决定是否应用韦尔奇校正。这种方法的一个问题是,决定采用哪种测试的方式取决于所观察的数据,以及这如何影响所选测试的性能(功率,I类错误率)。 另一个问题是很难检查小数据集中的正态性:正式测试的能力很低,因此很可能无法检测到违规,但是类似的问题也适用于将数据放在QQ图上。即使是严重的违规行为也可能无法发现,例如,如果分布是混合的,但没有从混合物的一种成分中获得观察结果。与大不同,我们不能依靠中心极限定理的安全网以及检验统计量和t分布的渐近正态性。ñnn 对此的一个原则响应是“安全第一”:无法可靠地验证小样本中的正态性假设,请坚持使用非参数方法。另一个是考虑任何假设正常的理由,从理论上(例如变量是几个随机分量的总和,应用CLT)或凭经验(例如以前的研究,值较大表明变量是正常的),并且仅在存在此类理由的情况下使用t检验。但这通常只能证明近似正态性是正确的,在自由度较低的情况下,很难判断避免使t检验无效所需接近正态性。ñnn 选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。但是少量样本也会引发一些附带问题: 如果执行“无关样本”或“非配对” t检验,是否要使用Welch校正?有些人使用假设检验来检验方差是否相等,但是这里的功效较低。其他人则根据各种标准检查SD是否“合理地”关闭。除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全? 如果您将方法的选择视为权能与鲁棒性之间的折衷,那么关于非参数方法的渐近效率的主张将无济于事。根据经验,有时会听到“ 如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,则通常功能要强大得多,因此只使用Wilcoxon”,但是如果95%仅适用于大,则对于较小的样本,这是有缺陷的推理。ñnn 小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据进行t检验是否安全?对于较大的样本,这将非常诱人,但是如果很小,除非可能有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。ñnn 如何检查非参数的假设? 一些消息来源建议在应用Wilcoxon检验(将其作为位置而不是随机优势的检验)之前,先验证对称分布,这在检查正态性方面会带来类似的问题。如果我们首先使用非参数测试的原因是对“安全第一”的口号的盲从,那么从少量样本评估偏斜度的困难显然会导致我们降低配对符号测试的功效。 考虑到这些小样本问题,在确定t测试与非参数测试之间是否有一个良好的过程(希望可以引用)? 有几个很好的答案,但是也欢迎考虑使用其他替代等级测试的答案,例如置换测试。

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
何时使用Wilcoxon秩和检验代替未配对的t检验?
这是弗兰克·哈雷尔(Frank Harrell)在这里写的后续问题: 以我的经验,准确的t分布所需的样本大小通常大于手头的样本大小。正如您所说,Wilcoxon符号秩检验非常高效,而且功能强大,因此我几乎总是喜欢它而不是t检验 如果我理解正确,则在比较两个不匹配样本的位置时,如果样本量较小,我们宁愿使用Wilcoxon秩和检验而不是不配对t检验。 从理论上讲,即使我们两组的样本量相对较大,我们还是更愿意使用Wilcoxon秩和检验而不是不成对的t检验吗? 我对这个问题的动机来自观察到的是,对于单个样本t检验,将其用于偏小分布的不太小的样本会产生错误的I型错误: n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error

1
关于t检验死亡的报道是否被大大夸大了?
通过阅读CV历来经典,我遇到了一个想澄清的声明。这是该帖子,我的问题是关于结束语:“我必须注意,我刚刚讲授的所有知识都已过时;现在我们有了计算机,我们可以做得比t检验更好。正如弗兰克所说,您可能想在被教您进行t检验的任何地方使用Wilcoxon检验。” 不必担心是否合理地假设样本均值的分布是否足以进行t检验是正常的,这显然是一个巨大的优势。而且我发现计算机可以轻而易举地排列两个数据矢量之间的长长的差异列表...我记得很多年前是手动完成的,但是我离题了... 那么,t检验真的已经成为过去吗?置换测试呢?在通常需要编写几行代码的意义上,它们是否太特别?

2
Wilcoxon秩和检验与Wilcoxon符号秩检验之间的差异
我想知道使用配对观测值的Wilcoxon秩和检验与Wilcoxon符号秩检验之间的理论差异是什么。我知道Wilcoxon秩和检验允许在两个不同样本中进行不同数量的观察,而配对样本的Signed-Rank检验则不允许这样做,但是在我看来,它们似乎都对相同的事物进行了检验。有人可以使用Wilcoxon秩和检验,什么时候可以使用成对观测值进行Wilcoxon符号秩检验,有人可以给我更多背景知识或理论信息吗?

5
非参数测试究竟能完成什么工作?您将如何处理结果?
我觉得这可能是在其他地方提出来的,但并不是我需要的基本描述类型。我知道非参数依赖于中位数而不是平均值进行比较。我也相信它依赖于“自由度”(?)而不是标准偏差。如果我错了,请纠正我。 我已经做了相当不错的研究,或者我想尝试去理解这个概念,背后的工作原理,测试结果的真正含义,以及/或者甚至对测试结果做些什么。但是,似乎没人敢涉足这一领域。 为了简单起见,让我们继续进行曼恩·惠特尼(Mann-Whitney)U检验,我注意到它很受欢迎(并且似乎也被滥用和过度使用,以迫使一个人的“方形模型陷入一个圆孔”)。如果您也想随意描述其他测试,尽管我一旦理解了其中的一个,就可以以类似的方式了解其他t检验,从而了解其他测试。 假设我对我的数据进行了非参数测试,然后得到了以下结果: 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 我熟悉其他方法,但是这里有什么不同?我们是否应该希望p值小于0.05?“曼恩·惠特尼统计”是什么意思?有什么用吗?这里的信息是否只是验证或不验证是否应该使用我拥有的特定数据源? 我在回归和基础知识方面有相当丰富的经验,但对这种“特殊”非参数化的东西很好奇-我知道这会有它自己的缺点。 试想一下,我是五年级生,看看你能不能对我解释一下。


1
非参数检验是否从同一分布中抽取两个样本
我想检验一个假设,即从同一总体中抽取两个样本,而无需对样本或总体的分布进行任何假设。我应该怎么做? 在Wikipedia上,我的印象是Mann Whitney U考试应该是合适的,但实际上似乎对我没有用。 为了具体起见,我创建了一个数据集,其中包含两个样本(a,b),它们大(n = 10000),并从两个非正态(双峰),相似(均值),但不同(标准差)的总体中得出我正在寻找一种测试,可以识别出这些样本不是来自同一群体。 直方图视图: R代码: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) 令人惊讶的是,这是曼·惠特尼(Mann Whitney)检验(?)无法拒绝样本来自同一总体的原假设: > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank …

2
当数据不是正态分布时,如何测试两组均值之间的差异?
我将消除所有生物学上的细节和实验,只引用眼前的问题以及我在统计学上所做的事情。我想知道它是否正确,如果不正确,如何进行。如果数据(或我的解释)不够清楚,我将尝试通过编辑来更好地解释。 假设我有两个组/观测值X和Y,大小分别为和N y = 40。我想知道这两个观察的平均值是否相等。我的第一个问题是:ñX= 215Nx=215N_x=215ñÿ= 40Ny=40N_y=40 如果满足假设,在这里使用参数两样本t检验是否有意义?我问这是因为据我了解,通常在尺寸较小时使用它吗? 我绘制了X和Y的直方图,并且它们不是正态分布的,这是两次样本t检验的假设之一。我的困惑是,我认为它们是两个人口,这就是为什么我检查正态分布。但是接下来我要进行两次样本t检验... 是吗? 根据中心极限定理,我了解到如果您多次执行抽样(根据人口规模是否进行重复)并每次计算样本平均值,那么样本将近似呈正态分布。并且,此随机变量的均值将很好地估计总体均值。因此,我决定在X和Y上执行此操作1000次,并获得样本,然后为每个样本的平均值分配一个随机变量。情节是非常正态分布的。X和Y的平均值分别为4.2和15.8(与总体+-0.15相同),方差分别为0.95和12.11。 我对这两个观测值(每个有1000个数据点)进行了t检验,它们具有不相等的方差,因为它们有很大差异(0.95和12.11)。零假设被拒绝了。 这有道理吗?这种正确/有意义的方法还是两个样本的z检验足够了还是完全错误的? 为了确保(在原始X和Y上)我也执行了非参数Wilcoxon检验,并且在那里也令人信服地拒绝了原假设。如果我以前的方法完全错误,我认为进行非参数检验是好的,除了统计功效之外? 在两种情况下,均值均存在显着差异。但是,我想知道这两种方法中的一种还是两种都是错误的/完全错误的,如果是,那有什么替代方法?

1
Kruskal-Wallis之后的事后测试:Dunn的测试或Bonferroni更正了Mann-Whitney的测试?
我有一些非高斯分布变量,我需要检查5个不同组中该变量的值之间是否存在显着差异。 我已经对Kruskal-Wallis进行了单向方差分析(其显着性上升),然后我必须检查哪些组存在显着差异。由于各组是排序的(第一个组中的变量值应低于第二组中的变量值,第二组中的变量值应低于第三组中的变量,依此类推on)我只执行了4个测试: Group 1 vs Group 2 Group 2 vs Group 3 Group 3 vs Group 4 Group 4 vs Group 5 我用两种不同的方法进行了分析。我从使用Dunn的多重比较测试开始,但是没有发现任何重大问题。另一方面,如果我使用Mann-Whitney检验并使用Bonferroni校正了检验的数量(4),那么有3项检验很有意义。 这是什么意思?我应该相信哪些结果?

8
未配对t检验的最小样本量
是否有“规则”来确定t检验有效所需的最小样本量? 例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。 可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
当中位数相等时,为什么Mann–Whitney U检验显着?
我收到了我不理解的曼惠特尼等级测试结果。这两个总体的中位数相同(6.9)。每个群体的较高和较低分位数为: 6.64和7.2 6.60和7.1 比较这些总体的测试得出的p值为0.007。这些人群有何显着不同?是由于中位数的价差引起的吗?比较2的箱线图显示,第二个异常值远大于第一个异常值。感谢您的任何建议。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.