什么是效果大小…为什么它甚至有用?


18

我具有研究生水平的统计学背景(假设我知道本科水平的数学统计学和概率论(例如,Wackerly等人,Ross'Probability),并且对度量理论有所了解)。

我最近开始从事教育统计方面的实验设计和统计报告工作,并被安排在一个项目上,该项目主要是在评估学校的问责制指标,并且必须分析数据,提出更改建议等。请注意,我是唯一的我部门有数学统计学背景的一位。

在我的位置上,人们强烈建议使用效果大小来衡量程序的有效性。我唯一一次听说过效应大小是从我的朋友那里学习的,心理学。我的印象是

规模效应=均值差标准偏差

与传统的假设检验相比,该指标有什么用处?为什么我要关心它?在我看来,这不过是两样本检验的检验统计量而已。除了将所有内容放到相同的规模(这就是为什么任何人真正地“规范化”任何东西的原因)之外,我认为这一点都没有用,但是我认为测试统计数据(这对我来说是效果大小)已经过时了和是首选。Ťp


我对“研究生水平的统计背景”感到困惑;前两个词似乎相互矛盾。您能澄清一下其中包括什么吗?那是像开始研究生水平统计学之类的东西吗?
Glen_b-恢复莫妮卡

2
@Glen_b是的,它正在开始研究生水平的统计。假设我知道大学水平的数学统计和概率(例如,Wackerly等人,Ross'Probability),并且对度量理论有所了解。
单簧管演奏者2015年

3
我可以表示同情,OP。来自数学/统计学背景,与在社会学或心理学博士学位课程中受过训练的人们讨论统计学常常令人感到困惑,因为它们对所有事物都有不同的用词:最佳的统计实践,例如,尝试说服顽固的审稿人/编辑者,即结构方程模型并不是所有问题的解决方案,或者线性度并不总是一个好的假设!但是,几年后,我学会了与该社区的良好融合!
CrockGill

Answers:


20

这是效果大小的一种度量,但还有许多其他度量。这当然不是的检验统计量。您通常将效果大小的度量称为Cohen(严格地说,只有通过MLE估算SD时才是正确的,即,未经Bessel校正)。更笼统地说,这被称为“标准化均值差”。也许这会使更清楚: ,即“d t d dŤdŤd
/

d=X¯2-X¯1个小号dŤ=X¯2-X¯1个小号ËŤ=X¯2-X¯1个小号dñ
/ñ标准化均值差的公式中缺少”。

更一般而言,从值中减去样本量可提供真实信息。假设真正的效果不完全是 到无穷小数位,那么只要有足够的,就可以达到任何有意义的意义。该 -值了我们如何有信心可以在拒绝零假设信息,而是由混为一谈的影响有多大跟你有多少数据这样做。很高兴知道我们是否应该拒绝原假设,但也很高兴知道您的教育干预效果是否会为学童带来大的收获,还是微不足道的并且仅因大而有意义。 N p N0ñpñ


15

我希望具有相关领域(例如心理学或教育背景)背景的人会给出更好的答案,但是我会给与一些帮助。

效果大小 ”是一个具有多个含义的术语-多年来,它引起了一些混乱的谈话,直到我最终意识到这一点。在这里,我们显然要处理按比例缩放的标准偏差版本(“标准偏差改变了多少?”)

在它们常见的主题领域中查看这种“效果大小”的部分原因是,它们经常具有变量,这些变量的特定值本质上不是固有的,但是被构造为试图测量一些难以获得的潜在事物在。

例如,假设您正在尝试测量工作满意度(也许是一个将其与一组独立变量相关联的模型,例如可能包含一些感兴趣的处理方法)。您没有任何直接方法,但是(例如)您可以尝试构建一些调查表以了解调查表的不同方面,也许可以使用Likert量表。

不同的研究人员可能采用不同的方法来衡量工作满意度,因此,您的两组“满意度”测量值不能直接进行比较-但是,如果它们具有不同形式的有效性,以此类推,则可以对这些内容进行检查(他们可能会合理地衡量满意度),则可能希望它们具有非常相似的效果大小;至少效应大小将具有更大的可比性。


3
很好地介绍了没有技术的“构造”概念。但是,在单簧管演奏家的工作中,您将需要深入理解此想法。我强烈建议Cronbach&Meehl在1955年《心理学公报》上发表的有关“建构效度”的原始资料:psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris,

7

上面的公式是如何计算相关样本的Cohen d(可能是您所拥有的?),如果它们不相关,则可以使用合并方差。有不同的统计信息可以告诉您效果大小,但是Cohen d是一种标准化的量度,可以在0到3之间变化。如果您有很多不同的变量,那么在考虑时最好有一个标准化量度他们在一起。另一方面,许多人更喜欢根据被测单位来了解效果大小。 当已经有p个值时,为什么要计算d? 这是我当前正在使用的数据集的示例。我正在研究一种在学校进行的行为干预,使用经过验证的心理问卷(产生李克特数据)进行测量。我的几乎所有变量都显示出统计学上的显着变化,也许因为我有大量样本(n =〜250)而不足为奇。然而,对于一些变量,科恩的d相当微不足道,例如0.12,这表明尽管确实有变化,但可能不是临床上重要的变化,因此对于讨论和解释数据的变化非常重要。这个概念已广泛用于心理学和健康科学领域,在这些领域中,从业者(或您的学校)需要考虑治疗的实际临床效用(或他们正在尝试的任何方法)。Cohen的d帮助我们回答有关是否真的值得进行干预(无论p值如何)的问题。在医学领域,他们还喜欢考虑NNT并根据所疾病的严重性对其进行评估。从@krstoffr http://rpsychologist.com/d3/cohend/看一下这个很棒的资源。



2

实际上,p值现在也终于“过时了”:http : //www.nature.com/news/psychology-journal-bans-p-values-1.17001。零假设显着性检验(NHST)产生略高于样本大小的说明。(*)的实验性干预将有一定的效果,这是说的“没有影响”简单的零假设永远是严格意义上的假。因此,“不重要”的测试仅意味着您的样本量不够大。“重大”测试意味着您收集了足够的数据来“发现”某些东西。

“影响大小”表示通过对问题的自然范围采取措施来解决此问题的尝试。在医学中,治疗总是有一定效果(即使是安慰剂效果),因此引入了“临床上有意义的效果”的概念,以防止先验概率发现“治疗”具有“ a(在统计学上)显着的积极效果”(但是微不足道)。

单簧管演奏家,如果我了解您的工作性质,那么最终,其合法目的是告知采取行动/干预措施,以改善您所管辖学校的教育。因此,您的设置是一种决策理论方法,贝叶斯方法是最合适的方法(并且是唯一一致的[1])。

的确,了解惯常方法的最好方法是近似贝叶斯方法。估计的效应大小可以理解为针对贝叶斯后验分布的中心性度量,而p值可以理解为旨在度量该后验的一条尾巴。因此,这两个量一起包含贝叶斯后验的粗略要点,构成了对问题的决策理论观点的自然输入。(或者,对效果大小的频繁置信区间也可以理解为想要的可信区间。)

在心理学和教育领域,贝叶斯方法实际上很流行。原因之一是可以很容易地将“构造”作为潜在变量安装到贝叶斯模型中。您可能想看看心理学家John K. Kruschke的 “小狗书” 。在教育中(有学生嵌套在教室中,嵌套在学校中,嵌套在地区中……),分层建模是不可避免的。贝叶斯模型也非常适合分层建模。在此帐户上,您可能想看看Gelman&Hill [2]。

[1]:Robert,Christian P.贝叶斯选择:从决策理论基础到计算实现。第二版。统计资料中的史宾格文字。纽约:施普林格,2007年。

[2]:Gelman,Andrew和Jennifer Hill。使用回归和多层次/层次模型进行数据分析。社会研究的分析方法。剑桥; 纽约:剑桥大学出版社,2007年。


有关从没有必要用贝叶斯砖头敲打您的头上获得更多“一致性”的信息,请参阅[3]。

[3]:罗宾斯,詹姆斯和拉里·瓦瑟曼。“条件,可能性和连贯性:一些基本概念的回顾。”《美国统计协会杂志》 95,第1期。452(2000年12月1日):1340-46。doi:10.1080 / 01621459.2000.10474344。

(*)在[4]中,Meehl比我更优雅地但又不失磨擦NHST:

由于零假设总是准错误的,因此以“显着差异”模式概括研究的表格不过是统计功效函数的复杂,因果关系无法解释的结果。

[4]:Meehl,Paul E.“理论风险和表格星号:卡尔爵士,罗纳德爵士和软心理学的缓慢发展。”咨询与临床精神病学杂志46(1978):806-34。http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


这是Tukey的相关报价:https : //stats.stackexchange.com/a/728/41404


1
任何实验性干预都会产生作用”(我强调)是一个相当有力的陈述,随后的“总是”也是如此。在某些研究领域,这可能是一个很好的经验法则,但我认为过于笼统有危险。我还认为,“[NHST]产生很少超过样本大小的说明”是值得商榷的:p值从之间的相互作用出现两个样本的大小效果大小。
银鱼

@Silverfish,谢谢您的答复。我想请您提供一个例子,说明我对p值的看法是“危险的”。(顺便说一句,我曾用斜体表示一些含义,并用“严格意义上的”来表示您这样的抱怨。我的主张仍然成立。)此外,尽管p值确实“来自相互作用”另外两个因素,其中之一(样本大小)很大程度上是一个自由设计参数,可以任意选择。因此,p值反映了该任意选择。显然需要两个数字。为什么不置信区间的端点?
David C. Norris

2
举个例子:在任何情况下,我们可能会合理地期望原假设为真,或者至少在我们不能直言不讳地进行实验或查看数据的情况下完全确定自己是假的。并非所有的虚假都是假的:考虑超心理学的研究,例如心灵感应和先验实验,但是在您可能认为更“科学上有效”的领域(例如基因组学)中,许多虚假都是正确的。
银鱼

5
-1,IMO,这里有很多问题。1个未成年人心理学期刊禁止使用p值的事实并不意味着“ p值现在最终'过时'”。该禁令受到了广泛的批评(包括ASA礼貌性声明,此后的几个月内没有任何其他期刊对此发表过评论。我注意到该期刊不需要切换到贝叶斯方法(我收集您的偏爱)) ,但只会考虑在逐案基础。
呱-恢复莫妮卡

3
但是,在一个真实的实验中,将单元随机化的过程打破了内源性途径,从而检验了从X到Y的直接因果路径。断言是一个奇怪的形而上学断言,声称所有变量都在两个方向上直接因果相关,但是如果如果不这样做,就断言“'无效'的零假设总是错误的”。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.