“零假设统计检验”与任何其他检验之间有何区别?


9

最近讨论的热门话题涉及一本期刊,该期刊禁止从提交给该期刊的文章中使用“零假设统计测试程序(NHSTP)”。我看到一些作家使用了这个术语,但是我不明白他们试图做出什么区分。NHSTP是否与“假设检验”或“重要性检验”有所不同?


1
NHST(最后不带P)是更常用的首字母缩写。这两个首字母缩略词似乎都是讨厌它的作家使用的贬义词(在这种争论中)。您可以浏览google Scholar搜索NHST + null(1670个结果,而NHSTTP + null则为145个),这全都涉及问题和麻烦。另一个相关的贬义词是“空礼”。所有这些都意味着您所认为的含义,但强烈的反感!
变形虫

2
从概念上说,有些测试与更常用的NHST有很大的不同,例如等效测试 -尽管在机械上(但并不奇怪)它们使用了紧密相关的框架。但是,我想这本书的编辑可能也会反对这些。
Glen_b-恢复莫妮卡2015年

1
相关(但不是重复):“假设检验”和“重要性检验”有什么区别?另外,我要指出的是,本期刊的编辑人员显然不会试图对两者进行区分!他们禁止使用任何假设/重要性/任何检验,无论是Fisher,Neyman-Pearson还是混合。仅在费舍尔与内曼·皮尔森(vs. Hybrid)的神圣战争的背景下做出区分,而这并不是该特定期刊禁令所针对的。
变形虫

1
那么,@ Livid,您是说“ NHST”指的是通常在实践中使用统计检验的方式,与Fisher和NP范式有区别吗?我猜想,如果这反过来又意味着曲柄的例行性和无意识的转向,那么我同意这是一个贬义词。
Russ Lenth'3

1
@rvl这是我早些时候想到的论文(+评论):具有统计意义的
青紫

Answers:


1

背景:有问题的社论是这样一个基础和应用社会心理学,用1.168 2015年影响因子期刊,即不高新书。

回复:OP问题,即NHSTP是否不同于“假设检验”或“重要性检验”?适用的编辑声明为

1) "...the null hypothesis significance testing procedure (NHSTP)  is invalid..." [Sic, with alpha = 0.05]
2) "...authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on)."
3) "...confidence intervals [Sic, 95%] also are banned from BASP."
4) "...Bayesian procedures are neither required nor banned from BASP." [Sic, depends on which ones, they are either banned or not.]
5) "Are any inferential statistical procedures required?...No..."

为此提供的动机部分是“ ...p<.05酒吧太容易通过了,有时是低质量研究的借口。我们希望并预期,通过使作者从NHSTP思维的结构中解放出来,从而禁止NHSTP将具有提高稿件质量的作用,从而消除了创造性思维的重要障碍。”

对OP的回答:这些编辑者可能会声称重要性检验通常是对假设的不正确检验。例如,他们说:“ ...贝叶斯提议至少在某种程度上规避了拉普拉斯假设 [Sic,我不了解先验知识 ] ... [使得]甚至可能存在一些有力的理由认为数字确实存在...”这部分 @Livid所指出的Fisher与Neyman和Pearson的论点有关,对此社论将与Fisher一起支持。

讨论:我坚信智力谦逊是科学方法的基本,必不可少的宗旨。如果我作为研究人员不被允许从一个没有假设的初始前提出发,而在此前提下所有先验理论都不被接受,那么我将失去我所有具有创造力和开放态度的数据检查能力。所有数值处理都必须是绝对真理的前提是对崇高的说明,这是崇高的。唯一的事实是数据,我会谦虚地解释Box指出所有模型都是错误的,尤其是那些肯定假定任何数据源于数据本身不一致的事物的模型。这并不意味着我必须在Fisher和Neyman / Pearson之间进行选择,而不是我坚信既不能单独假设一个前提,而是要详尽地研究事物,直到我的假设得到支持和/或拒绝了整体的自洽。只有自洽性可以用作标准,因为没有分析可以揭示绝对真理。

我的处事方式并不适合所有人。许多人更喜欢在严格控制的实验设计中计划测试,我称之为“自上而下”。但是,受控实验在数据挖掘,模式识别和生成假设方面效率低下。它们对于测试狭窄的问题很有用,那就是何时可能引发有关NHSTP的争议。在没有证据支持(例如要依靠的整个自洽结构)的情况下,任何一项测试都容易受到批评。相反,可以将其视为Bonferroni。如果多次测试导致不可避免的自洽合奏,则仅凭偶然发生合奏的机会就减少了。在计划心理学实验时,关于不使用的胡说八道p<0.05 是因为还没有测试任何特定测试结果的所有含义,并且如果不能忍受I型错误 0.05 因为实验设计是如此僵硬,受限和狭窄,所以使用 0.001。但是,禁止使用一种特殊的统计方法是因为它被漫不经心地使用,并且在审阅时盲目工作会通过,这仅意味着编辑者在同意对其进行审阅之前并未识别出质量低下的作品,也不会与合格的审稿人联系。当然,不能根据一项间接证据就建立合理的定罪依据。而是,大量的间接证据导致了合理的定罪。由于是证据性证据,因此消除整个证据类别将不会改善期刊的内容。


“…… 是科学方法的基本,必不可少的承租人 ……” –我希望您的意思是宗旨,而不是承租人
Glen_b-恢复莫妮卡

@Glen_b Je tiensàvous remercier。我应该知道得更多,但是无论如何都希望这是错误的。Ergo,剩下的还有什么想法吗?
卡尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.