Questions tagged «effect-size»

效应大小是“一种现象强度的度量或对该数量的基于样本的估计” [Wikipedia]。

4
心理学杂志禁止使用p值和置信区间;停止使用它们确实明智吗?
2015年2月25日,《基本与应用社会心理学》杂志 发表社论,禁止所有未来论文发表和置信区间。ppp 他们具体说(格式和重点是我的): [...]在发表之前,作者将必须删除NHSTP [无效假设重要性检验程序]的所有痕迹(,,,有关“重大”差异的陈述或缺乏它们的陈述) , 等等)。ppptttFFF 类似于NHSTP如何无法提供原假设的概率(需要为原假设提供强有力的条件来拒绝它),置信区间并不能为推断所关注的总体参数可能在规定范围内提供强有力的条件。间隔。因此,BASP也禁止置信区间。 [...]关于贝叶斯程序,我们保留根据具体情况做出判断的权利,因此,BASP也不要求也不禁止贝叶斯程序。 [...]是否需要任何推论统计程序?- 否,但是,BASP将需要强大的描述性统计数据,包括效应量。 让我们在这里不讨论问题和滥用。浏览p值标记可以找到很多有关CV的精彩讨论。对的批判常常与建议一起报告感兴趣参数的置信区间有关。例如,在这个非常有争议的答案中, @ gung建议以周围的置信区间来报告效果大小。但是该杂志也禁止置信区间。pppppp 与采用,置信区间和显着/无关紧要的二分法的“传统”方法相比,这种呈现数据和实验结果的方法的优缺点是什么?对该禁令的反应似乎主要是消极的。那有什么缺点呢?美国统计协会甚至对该禁令发表了简短的令人沮丧的评论,称“该政策可能有其自身的负面影响”。这些负面后果可能是什么?ppp 还是正如@whuber建议的那样,这种方法是否应该被普遍提倡为定量研究的范例?如果没有,为什么不呢? PS。请注意,我的问题与禁令本身无关;这是关于建议的方法。我也不是在问频率论者和贝叶斯论者。《社论》对贝叶斯方法也相当否定。因此本质上是关于使用统计信息与根本不使用统计信息。 其他讨论:reddit,Gelman。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
如何在具有统计意义的和非重要意义的分析中解释和报告eta平方/部分eta平方?
我有一些数据,这些数据具有eta平方值和部分eta平方值,这些值作为对组均值差的影响大小的度量。 eta平方和部分eta平方有什么区别?可以使用相同的科恩准则(1988年我认为:0.01 =小,0.06 =中,0.13 =大)来解释它们吗? 另外,如果比较检验(即t检验或单向ANOVA)不显着,是否可以用于报告效应大小?在我的脑海中,这就像说“平均差异未达到统计显着性,但仍需特别注意,因为从eta平方指示的效应大小为中等”。或者,效应量是重要性检验的替代值,而不是互补值吗?

4
较小的p值是否更有说服力?
我一直在阅读,1型错误率,显着性水平,功效计算,效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉,但是在继续讨论实际问题之前,有必要概述一下我对这些概念的当前理解。ppp 根据我收集到的信息,值只是惊喜的度量,假定原假设为真,则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。ppp 在Neyman-Pearson框架中,您预先选择一个重要级别,并将其用作(任意)截止点。显着性级别等于1类错误率。它由长期运行频率定义,即,如果您要重复进行1000次实验,并且原假设为真,那么由于采样的可变性,其中约有50个实验会产生显着效果。通过选择显着性水平,我们以一定的概率防范这些误报。传统上,不会出现在此框架中。PPP 如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01,1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一,因为通常报告为0.05 *,0.01 **,0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppppppppp 我还意识到ppp值是样本大小的函数。因此,它不能用作绝对测量。较小的ppp值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算很重要。PPP告诉我们是否有影响,而不是影响有多大。参见Sullivan 2012。 我的问题: 我该如何调和ppp值是一种惊喜度量(更小=更具说服力),同时又不能将其视为绝对度量的事实? 我感到困惑的是:我们能否对小ppp值比大p值更有信心?从渔业的角度来说,我会说是的,我们感到更加惊讶。在NP框架中,选择较小的显着性水平意味着我们将更加严格地防范误报。 但另一方面,ppp取决于样本量。它们不是绝对的措施。因此,我们不能简单地说0.001593 比0.0439 有意义。然而,这在费舍尔的框架中将隐含着这样的含义:我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论:将结果称为“高度重要”是否错误? 我听说,某些科学领域的ppp仅在小于0.0001时才被认为是重要的,而在其他领域,大约0.01的值已经被认为具有很高的意义。 相关问题: Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗? 何时使用Fisher和Neyman-Pearson框架? “ p值”的确切值是否没有意义? 与I型错误有关的p值的频繁属性 置信区间与P值的两种平均值 为什么较低的p值不能提供更多的证据来证明原值?Johansson 2011的论点(由@amoeba提供)

1
先验能力分析本质上是没有用的吗?
上周,我参加了人格与社会心理学协会的一次会议,在该会议上,我看到Uri Simonsohn的演讲,前提是使用先验能力分析来确定样本量实际上是无用的,因为其结果对假设如此敏感。 当然,这种说法违背了我在方法论课上所学的知识,也违背了许多著名方法学家的建议(最著名的是Cohen,1992年),因此Uri提出了一些与他的主张有关的证据。我试图在下面重新创建一些证据。 为简单起见,让我们假设您有两组观察结果,并猜测效果大小(通过标准化均值差衡量)为。标准功率计算(使用下面的软件包完成)将告诉您,需要观察才能获得此设计的80%功率。128.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") 但是,通常,我们对效果的预期大小的猜测(至少是在我所研究的社会科学领域)至少是-粗略的猜测。如果我们对效果的大小有些怀疑,那会发生什么?快速功效计算可以告诉您,如果效果的大小是而不是,则需要次观察- 是为的效果具有足够功效的数量的倍。同样,如果效果的大小为,则只需要进行观察,即需要有足够的能力才能检测到的效果的70%.5 200 1.56 .5 …

1
边际效应标准误差如何使用增量法?
我有兴趣更好地理解delta方法,以近似包括交互项的回归模型的平均边际效应的标准误差。我已经研究了增量方法下的相关问题,但没有一个提供了我想要的东西。 考虑以下示例数据作为激励示例: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) 我感兴趣的平均边际效应(AMES)x1和x2。为了计算这些,我只需执行以下操作: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

4
相互比较p值有什么意义?
我有两个人口(男人和女人),每个人口包含样本。对于每个样本,我都有两个属性A和B(第一年平均成绩和SAT分数)。我分别对A和B使用了t检验:两者都发现两组之间存在显着差异。A(和B(。p = 0.008 p = 0.002100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 可以断言属性B比属性A更好地被识别(更重要)吗?还是t检验只是是或否(有效或无效)度量? 更新:根据这里的评论以及我在Wikipedia上所读的内容,我认为答案应该是:删除无意义的p值并报告效果大小。有什么想法吗?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


5
什么是效果大小…为什么它甚至有用?
我具有研究生水平的统计学背景(假设我知道本科水平的数学统计学和概率论(例如,Wackerly等人,Ross'Probability),并且对度量理论有所了解)。 我最近开始从事教育统计方面的实验设计和统计报告工作,并被安排在一个项目上,该项目主要是在评估学校的问责制指标,并且必须分析数据,提出更改建议等。请注意,我是唯一的我部门有数学统计学背景的一位。 在我的位置上,人们强烈建议使用效果大小来衡量程序的有效性。我唯一一次听说过效应大小是从我的朋友那里学习的,心理学。我的印象是影响大小= 均值差标准偏差。规模效应=均值差标准偏差。\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} 与传统的假设检验相比,该指标有什么用处?为什么我要关心它?在我看来,这不过是两样本检验的检验统计量而已。除了将所有内容放到相同的规模(这就是为什么任何人真正地“规范化”任何东西的原因)之外,我认为这一点都没有用,但是我认为测试统计数据(这对我来说是效果大小)已经过时了和是首选。ŤŤtppp

2
效应大小要对Wilcoxon进行秩检验吗?
一些作者(例如Pallant,2007年,第225页;请参见下图)建议通过将测试统计量除以观察次数的平方根来计算Wilcoxon符号秩检验的效应大小: r = ZñX+ nÿ√[R=žñX+ñÿr = \frac{Z}{\sqrt{n_x + n_y}} Z是SPSS(请参见下图)以及wilcoxsign_testR中的测试统计信息输出。(另请参阅我相关的问题:wilcoxsign_test中的teststatistic vs linearstatistic) 其他人建议使用Bravais-Pearson()或Spearman()相关系数(取决于数据类型)。r = c o v (Xÿ)小号d(X)× 小号d(是)[R=CØv(Xÿ)sd(X)×sd(ÿ)r = \frac{cov(XY)}{sd(X) \times sd(Y)}[R小号[R小号r_S 当您计算它们时,两个rs甚至远不是相同的。例如,对于我当前的数据: r = 0.23(对于)r = ZñX+ nÿ√[R=žñX+ñÿr = \frac{Z}{\sqrt{n_x + n_y}} r = 0.43(皮尔逊) 这些将暗示效果大小完全不同。 那么,要使用的正确的效果大小是什么,这两个大小如何r相互关联? Pallant,J.(2007)的第224页(底部)和225页。SPSS生存手册:

5
效果大小真的优于p值吗?
在应用研究中,很多重点放在依赖和报告效应大小上,而不是p值上(例如,下面进一步引用)。 但是,不是像p值一样,效应大小是随机变量,并且在重复相同实验时,样本之间的影响大小可能会有所不同吗?换句话说,我在问什么统计特征(例如,效应大小在样本之间的可变性小于p值)使效应大小比p值更好的证据衡量指标? 但是,我应该提到一个重要的事实,它将p值与效果大小区分开。也就是说,效果大小之所以可以估算,是因为它具有总体参数,而p值却没有任何估算,因为它没有任何总体参数。 对我而言,效应大小只是在某些研究领域(例如,人类研究)有助于将来自各种研究人员开发的测量工具的经验发现转化为通用度量的度量(可以说,使用人类研究可以更好地适应这种度量)量化研究俱乐部)。 也许如果我们将一个简单的比例作为效应大小,那么以下(R中的)是什么表明效应大小超过p值的优势?(p值会发生变化,但效果大小不会改变) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55% 请注意,大多数效果大小与测试统计量线性相关。因此,使用效应量进行零假设检验很容易。 例如,事前设计产生的统计量可以很容易地转换为相应的科恩效应大小。这样,Cohen d的分布只是at分布的比例定位版本。 引号: 由于p值是混杂指标,因此理论上100个样本大小不同且影响大小不同100项的研究可能具有相同的单个p值,而100个具有相同单一影响值的研究可能各自具有100个不同的p值。 要么 p值是随样本不同而变化的随机变量。。。。因此,比较两个不同实验的p值,或对同一实验中测量的两个变量的测试的p值进行比较,并声明一个比另一个重要,是不合适的。 引文: 汤普森(2006)。行为统计的基础:一种基于洞察力的方法。纽约,纽约:吉尔福德出版社。 Good,PI和Hardin,JW(2003)。统计中的常见错误(以及如何避免)。纽约:威利。

1
在荟萃分析中指定效果大小的先验
我的问题上的担忧影响大小先验概率,在我的项目的措施是科恩的。通过阅读文献,似乎经常使用模糊的先验,例如在众所周知的八种流派的贝叶斯荟萃分析示例中。在这八所学校的示例中,我看到一个模糊的先验用于估计mu,例如 。dDDμθ〜正常(0 ,100 )μθ∼normal⁡(0,100)\mu_{\theta} \sim \operatorname{normal}(0, 100) 我的学科是心理学,效应的大小通常很小。因此,我正在考虑使用以下优先级:。我如此严格的先验的理由是,根据我对先验的理解,我将先验概率定为-1到1,在95%的先验概率中,有5%的先验概率大于- 1或1。μθ〜正常(0 ,.5 )μθ∼normal⁡(0,.5)\mu_{\theta} \sim \operatorname{normal}(0, .5)μθμθ\mu_{\theta} 由于影响如此之少,这种先验是否合理?

2
曼惠特尼U检验:效应大小的置信区间
根据弗里茨,莫里斯和Richler(2011;见下文),可被计算为使用下式的曼-惠特尼U检验的效果大小 - [R = ž[Rrr 这是方便我,我报告[R在其他场合也。除了效果量度,我还要报告r的置信区间。[R = žñ--√r=zN r = \frac{z}{\sqrt N} [Rrr[Rrr 这是我的问题: 我可以像皮尔逊的r一样计算r的置信区间,尽管它被用作非参数检验的效应量度? 一尾测试与二尾测试必须报告什么置信区间? 编辑有关第二个问题的内容:“单尾测试与两尾测试必须报告什么置信区间?” 我发现了一些其他信息,恕我直言可能会回答这个问题。“虽然两边的置信限形成一个置信区间,但它们的单边对应物被称为上下置信界限。” (http://en.wikipedia.org/wiki/Confidence_interval)。从这些信息中,我得出结论,重要性检验(例如检验)是一尾还是二尾不是主要问题,而是关于效应大小的CI感兴趣的信息是什么。我的结论(如果您不同意,请纠正我):Ťtt 两侧CI 对上限和下限感兴趣(因此,尽管单尾显着性检验为p <.05,尤其是在值接近的情况下,两侧CI可能为0。 05.)→→\rightarrow 一侧的“ CI” 仅对上限或下限感兴趣(由于理论推理);然而,在检验了有针对性的假设之后,这并不一定是主要关注的问题。如果将焦点放在效果大小的可能范围上,则双面CI则非常合适。对?→→\rightarrow 弗里兹,莫里斯和里奇勒(Fritz,Morris,&Richler(2011))的文字段落见下文,内容涉及我在上文中提到的曼·惠特尼检验的效应大小估计。 “我们在此描述的大多数效应量估计值都假设数据具有正态分布。但是,某些数据不满足参数检验的要求,例如,按序数而不是区间标度的数据。对于此类数据,研究人员通常使用非参数统计检验,例如曼恩·惠特尼检验和Wilcoxon检验,这些检验的重要性通常通过在样本量不太小的情况下将检验统计量的分布近似于分布来评估,而统计学包,如SPSS,运行这些测试报告适当ž除了为值值û或Ť ; žžzzžzzüUUŤTTžzz也可以手工计算(例如,Siegel&Castellan,1988)。所述值可以用于计算作用大小,如ř由科恩(1988)提出; Cohen的r准则是:大影响为0.5,中影响为0.3,小影响为0.1(Coolican,2009,第395页)。这是很容易计算- [R ,- [R 2,或η 2从这些Ž值,因为 - [R = žžzz[Rrr[Rrr[R2r2r^2η2η2\eta^2žzz 和 r2r=zN−−√r=zN r = \frac{z}{\sqrt N} 尽管公式中存在N,但这些效应大小的估计仍独立于样本大小。这是因为z对样本大小敏感。除以N的函数会从结果效应量估计中消除样本量的影响。”(第12页)r2orη2=z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 …

1
似然比和贝叶斯模型比较是否可以为零假设检验提供更好且足够的替代方案?
为了回应越来越多的统计学家和研究人员批评将零假设检验(NHT)用于科学作为一种累积努力的做法,美国心理学会统计推断工作组避免了彻底禁止NHT的禁令,而是建议研究人员除了从NHT导出的p值外,还报告效果大小。 但是,效果大小在整个研究中不容易累积。元分析方法可以累积效应量的分布,但是效应量通常以原始效应量与给定实验数据中无法解释的“噪声”之比来计算,这意味着效应量的分布不仅受各个研究之间的原始效果差异很大,而且各个研究之间的噪音表现也存在差异。 相比之下,效应强度的替代度量,似然比既可以在逐项研究的基础上进行直观的解释,又可以轻松地在各个研究中汇总以进行荟萃分析。在每项研究中,似然度代表包含给定效果的模型相对于不包含效果的模型的证据权重,通常可以报告为例如“计算X效果的似然比”揭示了该效应的证据是其无效证据的8倍。” 此外,似然比还允许直观表示无效结果的强度,因为低于1的似然比表示赞成采用无效的情况,取该值的倒数表示无效对效果的证据权重。值得注意的是 似然比在数学上表示为两个模型的无法解释的方差之比,其差异仅在于效应所解释的方差,因此在概念上与效应大小没有太大的偏差。另一方面,荟萃分析似然比的计算代表了整个研究中某项效应的证据权重,这仅仅是取各个研究中似然比的乘积即可。 因此,我认为,对于寻求建立有利于效应/模型的总体证据程度的科学而言,似然比是可行的方法。 在更细微的情况下,模型仅在效果的特定大小上才是可区分的,在这种情况下,我们认为区间的某种表示形式(我们认为数据与效果参数值一致)可能是首选的。确实,APA工作组还建议报告置信区间,可以将其用于此目的,但是我怀疑这也是一种考虑不周的方法。 令人遗憾的是,置信区间经常被误解(被学生和研究人员都误解了)。我还担心它们在NHT中的使用能力(通过评估CI中是否包含零)将只会进一步推论NHT的灭绝。 相反,当理论只能通过效应的大小来区分时,我建议贝叶斯方法会更合适,因为每种效应的先验分布由每个模型分别定义,然后比较所得的后验分布。 这种方法用似然比替换p值,影响大小和置信区间,并且在必要时用贝叶斯模型比较是否似乎足够?是否错过了此处所针对的替代方案所提供的某些必要的推论功能?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.