效应大小作为重要性检验的假设


37

今天,在交叉验证期刊俱乐部(为什么不在那里?),@ mbq问:

您认为我们(现代数据科学家)知道重要性意味着什么吗?以及它如何关系到我们对结果的信心?

@Michelle回答说(包括我在内)通常会这样做:

随着我继续职业生涯,发现重要性概念(基于p值)的帮助越来越少。例如,我可以使用非常大的数据集,因此所有数据在统计上都是有意义的(p<.01

这可能是一个愚蠢的问题,但这不是检验假设的问题吗?如果您检验零假设“ A等于B”,那么您知道答案是“否”。更大的数据集只会使您更接近这个不可避免的真实结论。我相信正是戴明(Deming)曾经举过一个假设的例子:“羔羊右侧的头发数量等于其左侧的头发数量”。好吧,当然不是。

更好的假设是“ A与B的相差不大。” 或者,在羔羊示例中,“羔羊侧面的毛发数量相差不超过X%”。

这有意义吗?


1)在某些情况下,均等值的测试(假设这是您想要的)可以简化为均值差异显着性的测试。对于此差异估计,使用标准错误,您可以进行各种“与B的差异不超过...”的测试。2)至于样本大小-是的,对于大ss,重要性的重要性降低了,但是对于较小的样本(您不能仅生成其他值)仍然至关重要。
Ondrej 2012年

11
关于“当然不是。” 猜测,每只羔羊的两侧大约有根毛。如果此类毛发的数量为偶数,并且它们在两侧均等地随机分布,并且两侧清晰划定,则两个数完全相等的机率是0.178%。在数百只大羊群中,您应该期望看到这样一个完美平衡的羔羊每十年至少出生一次(假设大约50%的时间出现偶发)。或者:几乎每一个老绵羊农场主都有一只小羊羔!105
ub

1
@whuber由分析目的确定。一个更好的类比是证明在试验后需要进一步投资某种药物的最小效应量是多少。仅仅存在统计学上显着的作用是不够的,因为开发一种药物是昂贵的,并且可能需要考虑副作用。这不是一个统计问题,而是一个实际问题。
迪克兰有袋动物

2
@whuber我怀疑,在大多数应用中,没有可用于确定所需最小效应大小的实用信息,那么标准假设检验就可以了,例如检验正态性。作为贝叶斯主义者,我同意将其视为优化问题而不是假设检验问题的观点。假设检验的部分问题来自统计食谱方法,该方法是在没有适当考虑练习目的或结果的真实含义的情况下进行的传统测试(当然,所有恕我直言)。
迪克兰有袋动物

1
@DikranMarsupial并不是让学生接受死记硬背的测试的关键,而不是好的学习设计的重要性吗?更加强调研究设计是否可以解决某些问题-不一定是大数据集?
米歇尔2012年

Answers:


25

就重要性测试而言(或与重要性测试基本相同的任何其他事情),我长期以来一直认为,在大多数情况下,最佳方法可能是估计标准化的效果大小,其置信区间为95%规模效应。那里并没有真正新的东西-数学上,您可以在它们之间来回拖曳-如果'nil'null的p值<.05,则0将位于95%CI之外,反之亦然。我认为,这样做的好处是心理上的; 也就是说,它使显着信息存在,但仅报告p值时人们看不到。例如,很容易看出效果非常“显着”,但是却小得离谱。或“不重要”,但这仅是因为误差线很大,而估计的效果或多或少是您期望的。这些可以与原始值及其配置项配对。

d=1.6±.5

另一方面,我认为一个更大的问题是“重要性测试是否能真正满足我们的需求?” 我认为真正的问题是,对于大多数分析数据的人(即从业者而不是统计学家),重要性测试可能会成为数据分析的整体。在我看来,最重要的是要有一种原则性的方式来思考我们的数据正在发生什么,而零假设重要性检验充其量只是其中很小的一部分。让我举一个假想的例子(我承认这是一个讽刺画,但不幸的是,我担心它似乎有些合理):

鲍勃进行一项研究,收集有关某物的数据。他预计数据将呈正态分布,紧密围绕某个值聚集,并打算进行一次样本t检验,以查看他的数据是否与某个预先指定的值“显着不同”。收集样本后,他检查以查看他的数据是否呈正态分布,并发现它们是否呈正态分布。取而代之的是,它们的中央没有明显的肿块,但是在给定的时间间隔内相对较高,然后以长长的左尾巴尾随。鲍勃担心该怎么做才能确保他的测试有效。他最终做了一些事情(例如,变换,非参数测试等),然后报告了测试统计信息和p值。

我希望这不会令人讨厌。我不是要嘲笑任何人,但我认为类似的事情偶尔会发生。如果发生这种情况,我们都可以同意这是不良的数据分析。但是,问题不在于测试统计量或p值有误。我们可以假设数据在这方面得到了正确处理。我认为问题是鲍勃参与了克里夫兰所谓的“死记硬背数据分析”。他似乎相信唯一的要点就是获得正确的p值,并且在追求该目标之外对他的数据很少考虑。他甚至可以改用我上面的建议,并以95%的置信区间报告标准化的效应量,并且这不会改变我认为更大的问题(这是我的意思,“基本上是一样的事情” ”)。在这种特定情况下,数据看起来不符合他的预期(即不正常)是真实的信息,这很有趣,而且可能很重要,但实际上这些信息只是被丢弃了。由于专注于重要性测试,Bob无法识别这一点。在我看来,这就是重要性测试的真正问题。

让我谈谈已经提到的其他一些观点,我想非常明确地说,我没有批评任何人。

  1. 人们经常提到,许多人并不真正理解p值(例如,认为它们是null为真的概率),等等。有时有人争辩说,如果只有人们会使用贝叶斯方法,这些问题就会走开。我相信人们可以以一种既好奇又机械的方式进行贝叶斯数据分析。但是,我认为,如果没有人认为获得p值是目标,那么误解p值的危害就不会那么大。
  2. “大数据”的存在通常与该问题无关。大数据仅表明,围绕“重要性”组织数据分析不是一种有用的方法。
  3. 我认为问题不在于所检验的假设。如果人们只想查看估计值是否在区间之外,而不是等于点值,那么可能会出现许多相同的问题。(再次,我想明确一点是,我知道您不是'Bob'。)
  4. 作为记录,我想指出的是,正如我试图指出的那样,我在第一段中提出的建议并没有解决这个问题。

对我来说,这是核心问题:我们真正想要的是一种原则性的方式来思考发生的事情。在任何给定情况下,这意味着没有被切割和烘干。如何在方法课上向学生传授这些知识既不清晰也不容易。重要性测试具有很多惯性和传统。在统计课程中,很清楚需要教什么以及如何教。对于学生和从业者,可以开发一种概念性的方案来理解材料,并可以使用清单/流程图(我看过一些!)进行分析。重要性测试可以自然地演变为死记硬背的数据分析,而不会有人愚蠢,懒惰或坏事。 就是问题所在。


我喜欢置信区间:)一个问题:您的意思是暗示事后计算效应大小是可以的吗?
米歇尔2012年

x¯1=10x¯2=14SD=6d=.67

是的,我想我们在这里同意。
米歇尔(Michelle)


+1我更喜欢可信的间隔时间。关于第1点,我认为贝叶斯替代方法不太可能导致死记硬背的数据分析,因为概率的定义不是那么违反直觉的,这使得以统计学的方式表达您实际想问的问题变得容易得多。 。真正的问题在于执行测试需要整合,对于这样的方法要广泛采用来说太困难了。希望软件能够发展到使用户可以集中精力提出问题并将其余部分留给计算机的地步。
Dikran有袋动物2012年

18

为什么我们在统计中坚持任何形式的假设检验?

罗伯特·阿贝尔森(Robert Abelson)在精彩的著作《作为原则论据的统计》中指出,统计分析是有关该主题的原则论证的一部分。他说,与其将其评估为被拒绝还是不被拒绝(甚至接受!!!)的假设,不如将其评估为基于他所谓的MAGIC标准:

大小-它有多大?清晰度-是否充满例外?清楚吗?普遍性-适用范围如何?有趣-我们在乎结果吗?信誉-我们可以相信吗?

在博客上对这本书的评论


4
一些教授提出了这个问题。我的博士学位是心理学系的心理学计量学。我听说该系其他部门的教授说过诸如“仅仅报告p值,这才是重要的事情”之类的事情。我的工作是咨询,主要是与社会,行为,教育和医学领域的研究生和研究人员进行咨询。博士委员会给出的错误信息数量惊人。
彼得·弗洛姆

1
为“为什么...” +1,这是我试图获得答案的很大一部分。
恢复莫妮卡

我想得到的答案的另一部分是,我认为这是自然发生的。顺便说一句,得到两个赞誉是不公平的;-),您可以将它们结合起来。
gung-恢复莫妮卡

13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)


(+1)并且,欢迎到1000信誉。干杯。
红衣主教

6

传统的假设检验可以告诉您,是否存在某种效应存在统计学上的显着证据,而我们通常想知道的是一种具有实际显着效应的证据。

当然有可能以最小的影响大小来形成贝叶斯“假设检验”(IIRC在David MacKay的书《信息理论,推理和学习算法》中有一个例子,我一会儿就会查找它。

正态性测试是另一个很好的例子,我们通常知道数据不是真正的正态分布,我们只是在测试是否有证据表明这不是一个合理的近似值。或测试硬币的偏斜,我们知道它不对称,因此不太可能完全偏斜。


6

许多原因归结为您实际上在问什么问题,如何设计学习内容,甚至相等地意味着什么。

我曾经在《英国医学杂志》上刊登过一个有趣的小插页,其中谈到了人们对某些阶段的解释。事实证明,“始终”可能意味着某件事发生的时间低至91%(BMJ VOLUME 333 2006年8月26日,第445页)。因此,可能认为相等和等效(或X的某个值在X%以内)意味着同一件事。并使用R询问计算机一个简单的等式:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

现在,使用无限精度的纯数学家可能会说这两个值不相等,但是R表示它们是对的,并且在大多数实际情况下,它们将是(如果您愿意给我(1e + 5 + 1e-50),但最终金额为(1e + 5-1e-50),我不会拒绝付款,因为它与承诺的金额有所不同)。$$$

此外,如果我们的替代假设是,那么即使技术上实际的空值是,我们也经常将空值写为,但是我们将等式设为null因为如果我们可以证明大于那么我们也知道它大于所有小于的值。难道不是两个尾巴的测试真的只是两个单尾巴的测试吗?毕竟,您是否真的会说但拒绝说在哪一边?这就是部分原因的原因,如果我的置信区间为ħ 0μ = μ 0 H ^ 0μ μ 0 μ μ 0 μ 0 μ μ 0 μ 0 μ μ μ 0 μ μ 0 μ 0 μHa:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμ包含那么虽然我可能不愿意相信完全等于,但我无法确定位于哪一侧,这意味着它们在实际应用中也可能相等。μ0μμ0μ0 μ

其中很多归结为提出正确的问题并为该问题设计正确的研究。如果最终获得足够的数据来表明实际上无意义的差异在统计上是有意义的,那么您浪费了获取大量数据的资源。最好决定什么是有意义的差异,并设计研究以赋予您足够的能力来检测该差异,但不要更小。

而且,如果我们真的想分开头发,我们如何定义羊的哪些部分在右侧,哪些在左侧?如果我们用一条线定义它,每条线在定义上每边的头发数相等,那么上述问题的答案就变成“当然是”。


我怀疑您从R得到的答案仅仅是一些浮点算术问题的结果,而不是有意识地决定忽略无关紧要的差异的结果。考虑经典示例(.1 + .2)== .3“纯数学家”将告诉您,在任何精度水平下它们都是相等的,但R返回FALSE。
晚宴

@GaëlLaurans,我的观点是,由于舍入(无论是人类还是计算机的意识),对于完全小的X来说,完全相等和X%内的概念实际上是相同的。
格雷格·斯诺

5

从组织的角度来看,无论是具有政策选择权的政府,还是希望推出新流程/产品的公司,使用简单的成本效益分析都将有所帮助。过去,我曾争论过(忽略政治原因),鉴于一项新计划的已知成本,对于必须受到该计划积极影响的人数,收支平衡点是多少?例如,如果新的倡议是要让更多的失业者上班,而倡议的成本$100,000$100,000多少,它是否至少使失业转移减少了?如果没有,那么该倡议的效果实际上并不重要。

对于健康结果,统计生命价值至关重要。这是因为在整个生命周期中都累积了健康收益(因此,根据折现率将收益的价值向下调整)。因此,除了统计意义之外,人们还争论如何估算统计寿命的价值以及应采用何种折现率。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.