为什么“统计上重要”还不够?


46

我已经完成了数据分析并获得了“统计学上显着的结果”,这与我的假设一致。但是,一位统计学专业的学生告诉我,这是一个过早的结论。为什么?我的报告中还需要包含其他内容吗?


4
它在很大程度上取决于您的意思是“获得与假设一致的统计学上显着的结果”。如果您的假设是风是由树木产生的,并且您的实验表明在100%的观察中,当树木在移动树枝时,就有风,您会发现它具有统计学意义,并且结论是正确的。这显然是错误的。因此,这可能是其中一种情况。
sashkello 2013年

1
您确实需要进行后续研究,以使用可信度高的数据收集,相同的模型和相同的假设检验安全地声明“重大发现”。此外,您还需要确保您的当前数据集代表您要声明的具有重大发现的“一般人群”(这是推断“大数据”的关键问题)
概率

1
答案肯定像“相关不是因果关系”那样简单吗?
2013年

1
这是我最喜欢的一个:多吃米饭的人会生出更多的孩子。检查整个世界人口,您将获得统计上显着的结果……
Karoly Horvath 2013年

4
好的答案,但令我惊讶的是,没有人提出明显的解决方案:问他/她。每当有人告诉您您对自己的工作有误或您关心的其他事情时,只需问一下即可。告诉某人他错了,因为X,y和Z很酷-这是一个学习的机会。但是,只是告诉某人他错了,冲刺是一个鸡巴的举动。
Sylverdrag

Answers:


53

假设检验与参数估计

通常,假设以二进制方式构成。我将方向性假设放到一边,因为它们不会改变很多问题。至少在心理学上,谈论诸如以下假设是很普遍的:组均值之间的差为零或不为零;相关性为零或不为零;回归系数为零或不为零;r平方为零或不为零。在所有这些情况下,都有无效的无效假设和无效的备用假设。

通常,这种二元思维不是我们最感兴趣的。一旦您考虑了您的研究问题,您几乎总会发现您实际上对估计参数感兴趣。您对组均值之间的实际差异,相关性的大小,回归系数的大小或所解释的方差量感兴趣。

当然,当我们获得数据样本时,参数的样本估计与总体参数不同。因此,我们需要一种量化参数值不确定性的方法。从频繁主义者的角度来看,置信区间提供了一种做事的手段,尽管贝叶斯纯粹主义者可能会争辩说,他们严格禁止您可能想做出的推断。从贝叶斯角度来看,可靠的后验密度区间提供了一种更直接的方法来量化您对总体参数值的不确定性。

参数/效果大小

R2

心理学(及其他领域)上有大量文献批评集中在p值,无效假设显着性检验等上(请参阅Google学术搜索)。该文献经常建议以置信区间作为解决方案来报告效应量(例如,Wilkinson的APA工作组,1999年)。

摆脱二元假设检验的步骤

如果您正在考虑采用这种想法,我认为您可以采用越来越复杂的方法:

  • 方法1a。用原始和标准化术语报告样本效果的点估计(例如,组均值差)。当您报告结果时,讨论如此巨大的幅度对理论和实践意味着什么。
  • 方法1b。至少在最基本的水平上,将1a加到基于样本量的参数估计周围的不确定性上。
  • 方法2。还报告效果大小的置信区间,并将这种不确定性纳入您对目标参数的合理值的思考中。
  • 方法3.报告贝叶斯可信区间,并检查对该可信区间的各种假设的含义,例如优先级的选择,模型所隐含的数据生成过程等。

在许多可能的参考文献中,您会看到Andrew Gelman在他的博客和研究中谈论了很多这些问题。

参考文献

  • Nickerson,RS(2000)。零假设重要性检验:回顾一个古老而又持续的争议。心理方法,5(2),241。
  • Wilkinson,L。(1999)。心理学期刊中的统计方法:指南和解释。美国心理学家,54(8),594 PDF

12
除了Jeromy的评论,我是否可以建议您阅读有关Ziliac和McCloskey的具有统计学意义的邪教文章。它不是最令人赞叹的统计数据,但确实提供了周到且有趣的讨论,说明了效应大小,实际意义和损失函数为何极为重要。deirdremccloskey.com/docs/jsm.pdf
吉姆(Jim)

我认为有时p应该设置为小于.05。谢谢大家:gung,Jeromy和Jim
Jim Von

1
在Ziliak [注意]和麦克洛斯基:如果你很忙,读phil.vt.edu/dmayo/personal_website/...第一。如果您不忙,请先阅读。
Nick Cox 2013年

不客气,@ JimVon。FWIW,我有时觉得p应该设置更高的比0.05。这只是取决于。
gung-恢复莫妮卡

1
很高兴看到Gelman博士在这里被冠名。显然,他甚至不喜欢报告 p值,更不用说使用它们进行认真的推断了。当然,他也为标准化所有变量提供了很好的理由。
shadowtalker

26

只是添加到现有的答案(顺便说一句,这很好)。重要的是要意识到统计显着性是样本量的函数

当您获得越来越多的数据时,无论您在哪里看,都可以发现统计上的显着差异。当数据量巨大时,即使是最小的影响也可能导致统计意义。这并不意味着上述效果在任何实际意义上都是有意义的。

pp


这是我的幻灯片13中提出的要点:)
斯特凡·洛朗

6
为此+1。人们没有意识到重要性是样本量的函数使我发疯。
Fomite 2013年

12

在进行研究之前,如果有合理的基础怀疑您的假设是正确的;并且您进行了很好的学习(例如,您没有引起任何混淆);并且您的结果与您的假设一致且具有统计意义;那么我认为您还可以,就目前而言。

但是,您不应认为重要性对您的结果至关重要。首先,您还应该查看效果大小(请参阅此处的答案:效果大小作为重要性检验的假设)。您可能还想稍微探索一下数据,看看是否可以找到值得继续关注的任何潜在有趣的惊喜。


您的假设是合理的吗?以及如何判断我的假设是否会导致无意义的数据分析?事后应该揭露“可能有趣的惊喜”吗?
吉姆·冯

我的意思是,大概有合理的理由将研究排名第一。当前的理论知识和/或最近的研究表明您的假设可能是正确的。除非假设不连贯,否则您的假设不太可能“导致毫无意义的数据分析”。事后很可能会发现潜在的有趣惊喜/数据特征;它们令人惊讶的事实意味着您在计划研究时不知道它们会发生。关于“事后”的问题是是否相信这些惊喜-他们需要得到未来研究的证实。
gung-恢复莫妮卡

7

在报告此事,此事和此事之前,首先要制定要从实验数据中学到的知识。通常的假设检验(我们在学校学习的这些检验...)的主要问题不是二元性:主要问题是这些假设不是针对感兴趣的假设的检验。参见此处的幻灯片13(下载pdf欣赏动画)。关于效果大小,此概念没有一般定义。坦率地说,我不建议非专业统计学家使用此方法,因为这是技术性的而非自然的“影响”度量。您的兴趣假设应以通俗易懂的术语表述。


1
一个小的补充-零假设实际上应该表示超出当前数据分析范围的内容,以适用标准HT。它不应该被“发明”,这样您就可以拒绝某些东西以支持您的理论/发现。
概率

2

我距离统计专家还很远,但是到目前为止,我在统计课程中已经强调的一件事是“实用意义”的问题。我相信这暗示了杰罗米和龚在谈到“效应量”时所说的话。

我们有一个例子,在一个为期12周的饮食中,减肥的结果具有统计学意义,但95%的置信区间显示平均减肥在0.2到1.2千克之间(确定,数据可能已经弥补,但是可以说明一个要点) 。尽管“统计上显着”(不同于0),在12周内200克的体重减轻是否对试图恢复健康的超重人士“具有实际意义”?


这是我的幻灯片13之后的要点:)
斯特凡·洛朗

2
这也是检验“错误”原假设的一个例子。这不是您感兴趣的结论。更好的假设检验是体重减轻小于5kg而大于5kg。
概率

1

如果不知道您的研究的更多细节和该人的批评,就不可能准确回答。但这是一种可能:如果您运行了多个测试,并且选择专注于出现在其中的一个测试p<0.05而忽略了其他测试,那么“重要性”已经因为您选择性地关注它而被淡化了。作为一个直觉泵,记住这p=0.05意味着“即使原假设为真,该结果也会(仅)在5%的情况下偶然发生”。因此,您运行的测试次数越多,其中至少有一个机会偶然出现“重大”结果的可能性就越大,即使那里没有影响。参见http://en.wikipedia.org/wiki/Multiple_comparisonshttp://en.wikipedia.org/wiki/Post-hoc_analysis


0

我建议您阅读以下内容:

安德森(Anderson),DR,伯纳姆(Burnham),KP,汤普森(Thompson),WL,2000年。零假设检验:问题,普遍性和其他选择。J.怀尔德 管理。64,912-923。Gigerenzer,G.,2004年。无意识的统计。社会经济杂志33,587-606。约翰逊(DH),1999年。统计意义检验的重要性。野生动物管理杂志63,763-772。

从任何实验或一组观察结果来看,零假设很少有意思,因为有两个结果:正确拒绝零假设或犯II型错误。确定效果大小可能是您感兴趣的,一旦完成,您应该为该效果大小生成置信区间。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.