Questions tagged «spearman-rho»

Spearman等级相关系数,通常表示为 ρ,是两个随机变量之间一致性的度量。

2
曼惠特尼U检验:效应大小的置信区间
根据弗里茨,莫里斯和Richler(2011;见下文),可被计算为使用下式的曼-惠特尼U检验的效果大小 - [R = ž[Rrr 这是方便我,我报告[R在其他场合也。除了效果量度,我还要报告r的置信区间。[R = žñ--√r=zN r = \frac{z}{\sqrt N} [Rrr[Rrr 这是我的问题: 我可以像皮尔逊的r一样计算r的置信区间,尽管它被用作非参数检验的效应量度? 一尾测试与二尾测试必须报告什么置信区间? 编辑有关第二个问题的内容:“单尾测试与两尾测试必须报告什么置信区间?” 我发现了一些其他信息,恕我直言可能会回答这个问题。“虽然两边的置信限形成一个置信区间,但它们的单边对应物被称为上下置信界限。” (http://en.wikipedia.org/wiki/Confidence_interval)。从这些信息中,我得出结论,重要性检验(例如检验)是一尾还是二尾不是主要问题,而是关于效应大小的CI感兴趣的信息是什么。我的结论(如果您不同意,请纠正我):Ťtt 两侧CI 对上限和下限感兴趣(因此,尽管单尾显着性检验为p <.05,尤其是在值接近的情况下,两侧CI可能为0。 05.)→→\rightarrow 一侧的“ CI” 仅对上限或下限感兴趣(由于理论推理);然而,在检验了有针对性的假设之后,这并不一定是主要关注的问题。如果将焦点放在效果大小的可能范围上,则双面CI则非常合适。对?→→\rightarrow 弗里兹,莫里斯和里奇勒(Fritz,Morris,&Richler(2011))的文字段落见下文,内容涉及我在上文中提到的曼·惠特尼检验的效应大小估计。 “我们在此描述的大多数效应量估计值都假设数据具有正态分布。但是,某些数据不满足参数检验的要求,例如,按序数而不是区间标度的数据。对于此类数据,研究人员通常使用非参数统计检验,例如曼恩·惠特尼检验和Wilcoxon检验,这些检验的重要性通常通过在样本量不太小的情况下将检验统计量的分布近似于分布来评估,而统计学包,如SPSS,运行这些测试报告适当ž除了为值值û或Ť ; žžzzžzzüUUŤTTžzz也可以手工计算(例如,Siegel&Castellan,1988)。所述值可以用于计算作用大小,如ř由科恩(1988)提出; Cohen的r准则是:大影响为0.5,中影响为0.3,小影响为0.1(Coolican,2009,第395页)。这是很容易计算- [R ,- [R 2,或η 2从这些Ž值,因为 - [R = žžzz[Rrr[Rrr[R2r2r^2η2η2\eta^2žzz 和 r2r=zN−−√r=zN r = \frac{z}{\sqrt N} 尽管公式中存在N,但这些效应大小的估计仍独立于样本大小。这是因为z对样本大小敏感。除以N的函数会从结果效应量估计中消除样本量的影响。”(第12页)r2orη2=z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 …

1
Spearman相关系数差异的显着性检验
(非常感谢您的快速回复!我在提出问题方面做得很差,所以让我重试。) 我不知道如何找出两个Spearman相关系数之间的差异是否在统计上显着。我想知道如何找到它。 我想发现的原因是在以下论文中:Gabrilovich和Markovitch 撰写的基于Wikipedia的自然语言处理语义解释(《人工智能研究杂志》 34(2009)443-498)。 在表2(p。457)中,作者表明他们的方法(ESA-Wikipedia)比其他方法具有更高的统计学上显着的Spearman相关性,并且我想这样做也是为了证明我的方法比以前的方法更好一些问题的方法。 我不知道他们如何计算统计显着性,我想知道。该论文的作者确实指出,Spearman的等级相关被视为Pearson的相关。我不确定这是否是正确的方法。我有两个Spearman的相关性,我想知道它们之间的差异是否在统计上显着。 我知道网站(例如http://faculty.vassar.edu/lowry/rdiff.html)提供了在线计算器,用于获取两个Pearson相关性之间的差异。对于两个Spearman相关系数之间的差异,我找不到类似的在线计算器。 Peter Flom提供的链接中的解决方案 注意:这些过程仅支持Spearman的相关性低于0.6。 令 =观察到的集合相关性的Fisher变换, z_B =观察到的集合B的相关性的Fisher变换。zAzAz_AAAAzBzBz_BBBB 对于,让,其中是费希尔转换集的所述的一左通过删除 ,重新排序并重新计算相关性获得的相关性。(每个 基于对;每个删除都是临时的,仅对于i而言,不是永久的。)对集合重复。i=1,…,ni=1,…,ni = 1,\dots,nyAi=nzA−(n−1)zA′iyAi=nzA−(n−1)zA′iy_{A_i} = nz_A- (n - 1)z_{A'i}zA′izA′iz_{A'i}AAA(xi,yi)(xi,yi)(x_i,y_i)zA′izA′iz_{A'i}n−1n−1n-1BBB y¯A=∑yAi/ny¯A=∑yAi/n\bar y_A = \sum y_{A_i}/n是已知的Fisher变换。重复集。BBB vy¯A=∑(yAi−y¯A)2/(n(n−1))vy¯A=∑(yAi−y¯A)2/(n(n−1))v_{\bar y_A} = \sum (y_{A_i}-\bar y_A)^2 /(n(n-1))是的方差。重复集。y¯Ay¯A\bar y_ABBB 使用异方差(Welch-Satterthwaite)检验比较两个粗略估计:ttt nAnBABt=y¯A−y¯Bvy¯A+vy¯B−−−−−−−−√,df=(vy¯A+vy¯B)2v2y¯AnA−1+v2y¯BnB−1t=y¯A−y¯Bvy¯A+vy¯B,df=(vy¯A+vy¯B)2vy¯A2nA−1+vy¯B2nB−1 t = \frac{\bar y_A - \bar y_B}{\sqrt{v_{\bar y_A} + v_{\bar …

1
如何计算Spearman等级相关性的置信区间?
维基百科具有Spearman等级相关性的Fisher变换到近似的z分数。也许z得分与零假设(等级相关性0)不同? 此页面具有以下示例: 4, 10, 3, 1, 9, 2, 6, 7, 8, 5 5, 8, 6, 2, 10, 3, 9, 4, 7, 1 rank correlation 0.684848 "95% CI for rho (Fisher's z transformed)= 0.097085 to 0.918443" 他们如何使用Fisher变换获得95%的置信区间?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
为排名数据绘制回归线(Spearman相关性)是否“可行”?
我有一些我计算出Spearman相关性的数据,并希望将其可视化以用于出版物。因变量是排名的,独立变量不是。我想可视化的是总体趋势,而不是实际的斜率,因此我对独立变量进行了排名,并应用了Spearman相关/回归。但是,当我绘制数据并将其插入到手稿中时,我偶然发现了这个声明(在此网站上): 当您进行Spearman秩相关时,几乎不会将回归线用于描述或预测,因此不要计算回归线的等价物。 然后 您可以按照与线性回归或相关性相同的方式来绘制Spearman等级相关性数据。但是,不要在图表上放置回归线。使用等级相关性对其进行分析后,将线性回归线放在图形上会产生误导。 问题是,回归线与我未对独立变量进行排名并计算皮尔逊相关性时没有太大不同。趋势是相同的,但是由于期刊中彩色图形的费用过高,所以我使用单色表示,并且实际数据点重叠得太多,以致无法识别。 当然,我可以通过制作两个不同的图来解决此问题:一个用于数据点(排名),另一个用于回归线(未排名),但是如果事实证明我引用的来源有误或存在问题,就我而言,这不是问题,它将使我的生活更轻松。(我也看到了这个问题,但这并没有帮助我。) 编辑其他信息: 如果将分类算法的性能进行比较,则x轴上的自变量表示特征的数量,y轴上的因变量表示等级。现在,我有一些算法可以平均比较,但是我想对我的情节说的是:“虽然分类器A越好,存在的特征越多,分类器B越好,存在的特征越多” 编辑2以包括我的地块: 绘制的算法等级与特征数量的关系 绘制的算法等级与特征等级的对比 因此,重复标题中的问题: 可以为Spearman相关/回归的排名数据绘制回归线吗?

2
当Spearman相关性比Pearson小一定数量时,它表示什么?
我有一堆相关的数据集。它们之间成对的皮尔逊相关性通常肯定比斯皮尔曼相关性大。这表明任何相关都是线性的,但是即使皮尔逊和斯皮尔曼是相同的,也可能期望这样。当皮尔逊和斯皮尔曼相关性之间存在一定的差距并且皮尔逊更大时,这意味着什么?这似乎是我所有数据集的一致特征。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
尽管具有正态性假设,为什么等级的皮尔逊相关性仍然有效?
我目前正在阅读有关Pearson相关性的假设。随后的t检验的一个重要假设似乎是两个变量都来自正态分布。如果他们不这样做,则提倡使用替代措施,例如Spearman rho。Spearman相关性的计算就像Pearson相关性一样,仅使用X和Y的等级而不是X和Y本身,对吗? 我的问题是:如果需要将输入到Pearson相关中的变量进行正态分布,那么即使输入变量是等级,为什么Spearman相关性的计算仍然有效?我的排名肯定不是来自正态分布... 到目前为止,我唯一得出的解释是,对rho的重要性的检验可能与Pearson相关t检验的检验有所不同(以不需要正态性的方式),但是到目前为止,我还没有找到公式。但是,当我运行一些示例时,除最后几位数字外,等级的Phoson相关性的rho和t检验的p值始终匹配。对我来说,这看起来不像是一个突破性的过程。 您可能会有任何解释和想法!


1
测量训练后的神经网络的相关性
我正在使用非正态分布数据训练人工神经网络(反向传播,前馈)。除了均方根误差外,文献还经常提出用于评估训练网络质量的皮尔逊相关系数。但是,如果训练数据不是正态分布的,Pearson相关系数是否合理?使用基于等级的相关度量(例如Spearman rho)是否更合理?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.