将结果称为“接近”或“某种”有意义是错误的吗?


13

关于类似问题的普遍共识是:将结果称为“高度重要”是错误的吗?“高度显着”是一种有效的(尽管不是特定的)方式,用于描述p值远低于预设的显着性阈值的关联强度。但是,如何描述稍微高于阈值的p 值呢?我已经看到一些论文使用诸如“有些重要”,“几乎重要”,“接近重要性”之类的术语。我发现这些术语有些不切实际,在某些情况下,这是一种界限分明的卑鄙的方式,可以从有意义的结果中排除有意义的结果。这些术语可以用来描述“仅仅错过”您的p值临界值的结果吗?


3
我不相信有人建议用“重要性”来形容“协会的实力”。后者听起来更像是效果大小的量度。无论如何,请参阅此处以获取完整列表。
Scortchi-恢复莫妮卡

1
@Scortchi-根据我的理解,很小的p值非常重要,这意味着所讨论的变量与目标之间有很强的联系。这是效果大小较大,数据很多或两者兼而有之的结果。对于较大的p值,支持变量和目标之间关联的证据很少。另外,喜欢您链接中的列表。
核王

9
以较小的效果量获得非常小的p值几乎可以称为“强关联”。这只会是可检测的关联。
ub

2
我见过人们在行业中经常使用这些短语,但是在学术论文中却没有。
阿克萨卡(Aksakal)2015年

1
也许您的不适来自于认为p值(或从样本得出的任何其他数字)是某物的精确度量。
埃里克·塔

Answers:


14

如果您想让“重要性”承认学位,那么就足够公平(“有点重要”,“相当重要”),但要避免使用一些词组来暗示您仍然对阈值的想法有所了解,例如“几乎重要” ,“接近重要性”或“处于重要时刻”(我最喜欢博客可能出现的错误”中“仍然不重要” ),如果您不想表现得绝望的话。


9
(+1)的链接。但是我认为诗歌创作的亮点是“濒临重大边缘(p = 0.06)”
Alecos Papadopoulos

1
@AlecosPapadopoulos:没错,尽管“以传统的显着水平调情”和“徘徊在统计上的显着水平”值得一提。“准重要”可能是另一个类别的赢家。
Scortchi-恢复莫妮卡

4
事实上,前两个是真正的电影精神,从电影“统计舞男”(还有谁将会第一个调情传统的电平?),而从电影“垂死的尾巴”,在这里我们看到了来势汹汹的秃鹫第二(p值)悬停在垂死的英雄上(统计意义)。
Alecos Papadopoulos

1
就我个人而言,我会在措辞中放弃“重要”一词,并称p = 0.06“非常有趣”。对或错,当我第一次在6西格玛(Six Sigma)课程中遇到p值时,指导老师建议对于0.05 <= 0.1的正确标签是“需要更多数据”(基于难以获取其他数据点的工业环境) ,因此与任何“大数据”方案完全不同
罗伯特·德格拉夫

6

从我的角度来看,这个问题归结为进行重要性测试的实际含义。重要性检验被设计为做出拒绝否定假设或不否定假设的决定的手段。费舍尔本人引入了臭名昭著的0.05规则来做出(任意)决定。

基本上,重要性测试的逻辑是,用户必须在收集数据之前指定一个alpha级别来拒绝无效假设(通常为0.05)。在完成显着性测试后,如果p值小于alpha级别,则用户将拒绝null(否则将失败)。

之所以不能宣布某项效果非常显着(例如,在0.001水平)是因为您找不到比您打算发现的证据更强大的证据。因此,如果在测试前将alpha值设置为0.05,则无论p值多么小,都只能找到0.05的证据。同样,说“有些显着”或“接近显着”的效果也没有多大意义,因为您选择了0.05的这个任意标准。如果您从字面上解释显着性检验的逻辑,则大于0.05的值都不是显着的。

我同意,诸如“接近重要性”之类的术语通常用于增强出版前景。但是,我不认为应该为此归咎于作者,因为在某些科学中,当前的出版文化仍然严重依赖于0.05的“圣杯”。

其中一些问题已在以下文章中讨论:

Gigerenzer,G。(2004)。无忧的统计。社会经济杂志,33(5),587-606。

Royall,R。(1997)。统计证据:似然范例(第71卷)。CRC出版社。


1
如果在Fisher的显着性检验中添加alpha等级,则您正在将Fisherian科学哲学与Neyman / Pearson的方法相结合。
RBirkelbach

5

这个湿滑的斜率可以追溯到Fisher-Neyman / Pearson框架进行零假设假设显着性检验(NHST)。一方面,人们想对结果在原假设下的可能性进行定量评估(例如,效应量)。另一方面,在一天结束时,您需要一个单独的决定,即您的结果是否可能仅由于偶然性而产生。我们最终得到的是一种不太令人满意的混合方法。

在大多数学科中,将显着性的常规p设置为0.05,但确实没有理由将其设置为p。当我审阅一篇论文时,只要方法论是合理的,并且包括所有分析,数据等在内的整个图片都讲述了一个一致且可信的故事,我绝对不会认为作者认为0.06有意义,甚至是0.07。当作者试图用琐碎的数据以较小的效果制作一个故事时,就会遇到问题。相反,即使达到常规的p <0.05的意义,我也可能不会完全“相信”一项测试在实际中有意义。我的一位同事曾经说过:“您的统计数据应该简单地备份您的数据中已经显而易见的数据。”

话虽如此,我认为瓦西廖夫是正确的。鉴于发布系统已损坏,您几乎必须包含p值,因此,即使它需要像“ marginally”(我更喜欢)这样的形容词,也几乎必须使用“有意义”一词来认真对待。您总是可以在同行评审中与之抗争,但您必须首先到达那里。


5

两个p值本身之间的差异通常不大。因此,p值是否为0.05、0.049、0.051 ...都没关系...

关于p值作为关联强度的度量:p值不是直接关联强度的度量。p值是在假设参数假定为0的情况下发现与您观察到的数据相同或更多的极端概率的概率(如果您对原假设感兴趣,请参阅Nick Cox的评论)。但是,这通常不是研究人员感兴趣的数量。许多研究人员对回答诸如“参数大于某个选定的临界值的概率是多少?”之类的问题相当感兴趣。如果您对此感兴趣,则需要在模型中合并其他先验信息。


6
我本着这种精神,但一如既往的小字体需要始终保持警惕。“假定参数假定为0”:经常但并非总是如此。也可以为其他假设计算P值。另外,对于“假定”,请阅读“假设”。
Nick Cox 2015年

您完全正确-我将编辑我的答案!
RBirkelbach

3

p<αp>α(当然不是效果的强度)。对于这样的“连续主义者”,“几乎有效”是描述具有中等p值的结果的明智方式。当人们将这两种哲学混合在一起时,就会出现问题。(顺便说一句-人们经常假设这些图清晰地映射到Neyman / Pearson和Fisher上,但事实并非如此;因此,我承认他们的说法很笨拙)。有关此主题的博客文章,请访问此处:https//scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/


1

从技术的角度来看,我倾向于认为在统计上有意义的事情是不正确的。设置公差等级后,将设置显着性统计检验。您必须回到抽样分布的概念。如果您的容忍度为0.05,而p值恰好为0.053,则所使用的样本偶然产生了该统计量。您很可能会得到另一个可能不会产生相同结果的样本-我相信发生的可能性是基于所设置的公差水平,而不是样本统计量。请记住,您是根据总体参数测试样本,样本具有自己的样本分布。因此,我认为,无论是在统计上是有意义的,还是在统计学上都不是。


0

[0,1]H0p>α

H1

参见例如维基百科


我不太了解你。是的,在任何连续分布中,获得精确值0.051的可能性等于获得精确值1的可能性-它为零。但是假设检验检验了看到至少与观察到的值一样极端的值的可能性。您总会发现p值至少等于1的极值,但是看到p值极至0.051的可能性要小得多。是什么使这种区别“毫无意义”?
核王

在零值下,观察区间[0.05,0.051]中的p值的可能性与观察区间[0.999,1]中的p值的可能性一样大。观察一个更接近阈值的p值并不能像观察排斥区域以外的任何其他p值那样,更多地证明0反对。
斯诺(Snaut)

某些调用ap值为0.05有意义,另一些使用0.01或0.1作为阈值。因此,在进行相同分析并发现p值为0.03的3名研究人员中,有2名可能将其称为有意义,而有1名则可能没有意义。如果他们都找到0.91的p值,没有人会认为它是显着的。P值接近阈值意味着更多的人会认为有足够的证据拒绝零值。我不明白为什么在支持H1方面p = 0.051和p = 1应该是难以区分的-有些人会合理地以p = 0.051支持H1。p = 1时没有人会这样做。
核王
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.