容纳根深蒂固的p值视图


31

有时在报告中,我会提供有关p值和我提供的其他推论统计信息的免责声明。我说由于样本不是随机的,因此此类统计数据将不严格适用。我的具体措辞通常在脚注中给出:

“虽然严格地说,推理统计仅适用于随机抽样,但我们遵循惯例报告重要程度和/或置信区间,即使对于非随机样本也作为方便的准绳。请参阅迈克尔·奥克斯的 统计推断:关于社会和社会的评论行为科学 (NY:Wiley,1986)。

在某些情况下(一次是同行评审论文,一次是非学术性论文,一次是两次),编辑或审稿人对此免责声明表示反对,称其令人困惑,并认为推论性结论应与书面陈述相符。 (并获得权威的保护)。有没有其他人遇到这个问题并找到了一个好的解决方案?一方面,即使是在随机抽样的情况下,人们对p值的理解通常也是令人沮丧的,因此我们所说的内容无关紧要。另一方面,进一步加剧误解似乎是问题的一部分。我应该补充一点,我经常处理调查研究,在这些研究中,不应用随机分配,并且在其中蒙特卡罗模拟通常不能解决代表性问题。


3
对审阅者的评论非常令人伤心,希望那个位置的人至少不会公开展示自己的无知,从而进一步支持对统计方法的误解。
richiemorrisroe 2011年

8
如果我错了,请纠正我,但是抽样的随机性只会影响您可以概括发现的程度。相反,随机分配是因果推理的更关键特征。
迈克·劳伦斯

3
迈克,我同意你的看法。您是否打算以此为基础扩大讨论范围或表示不同意我所说的话?
rolando2'2

@richiemorrisroe:期望所有审阅者都如此是愚蠢的,但我想人们可以期望我们可以期待的未来,而且我们当然应该向出版商施加压力,要求他们比现在更多地要求和执行。罗兰多,我认为迈克(Mike)只是澄清此讨论与因果推论相关问题的歧义。显然,有人认为这很有帮助,尽管我个人已经很清楚了。如果我是对的,这会无意间衡量其他人对p值的困惑,这会激发原帖!
Nick Stauner 2013年

Answers:


11

确实有一个论点必须不包含免责声明。坦白说,我会在期刊文章中找到有关p值性质的简短论述,这有点令人反感,并且一会儿必须停下来,尝试弄清楚您是否做过特别的事情。 .esoteric ...以确保将该空间用于定义点。

基本上,作为审阅者,我认为它是不必要的,因为读者应该已经知道p值是什么和做什么。我什至可能会反对,因为做这样的记录实际上并不能阻止伴随p值的许多分析和解释犯罪,它只是披着“相信我,我知道我在做什么”的伪装。这也有点奇怪-“我将对p值采取大胆的立场,但不要这么大胆以至于我不报告它们”。

当我审议“关于p值根深蒂固的意见”,我更关心像你上面贴的东西,很多关注审稿人统计意义的坚持才能被发布或纸张的焦点(认沽被发现发现为明星,然后突然变成了大问题)或将统计显着性与发现的显着性相结合。


3
我不认为这可以回答OP。我假设@ rolando2报告的其他统计数据对他的讨论更为重要(例如,效果大小),并且大多数情况下报告p值是适应常规期望的一种方式,即使它们并不严格适用。这样一来,无论我们对p值的了解程度如何,我们都应该放任自流。我们应该考虑他的免责声明动机。读者不知道该怎么做。OP提到了这一点。免责声明会引起怀疑,而不是信任。在遵守标准时反对标准并不奇怪。这不是一个大胆的立场。
Nick Stauner

@NickStauner我看不到它不会如何“回答” OP。也许它不支持他们想做的事情,但是在我看来,这既是对论文实际内容的真正怪异突破,也是无用的-“这是错误的,但是我要继续努力,正确,因为这就是你们所有人的期望”,并没有告诉我错误是否重要
Fomite 2013年

3
OP的问题:“是否还有其他人遇到此问题并找到了好的解决方案?” 您的答案会忽略字面问题来回答该想法,而大多数人会就为什么应否决该想法提供您的意见。但是,您开始暗示对OP的想法有建设性的批评:您似乎并不认为Oakes的引用告诉您它为什么重要。我会自己回答一个问题。
Nick Stauner 2013年

12

推论统计的使用不仅可以基于总体模型,而且还可以基于随机模型,是合理的。后者对样本的获取方式不做任何假设。实际上,费舍尔(Fisher)认为应该将随机模型作为统计推断的基础(与Neyman和Pearson相对)。参见,例如:

医学博士恩斯特(2004)。排列方法:精确推断的基础。统计科学,第19卷,第676-685页。[链接(开放访问)]

Ludbrook,J。&Dudley,H。(1998)。为什么在生物医学研究中置换检验优于t和F检验。美国统计员,52,127-132。[链接(如果您具有JSTOR访问权限)]

我以某种方式怀疑有关的编辑或审稿人是否以此为理由将您的免责声明称为“令人困惑”。


1
沃尔夫冈-有趣和有用的观点。不过,我应该明确指出,我的大部分工作都在调查中。
rolando2'2

7
如果主要目标是对总体进行某种推断,并且抽样机制具有这样的性质,即样本的代表性是可疑的,那么实际上,任何推断都将是相当可疑的。本质上,您只能推断抽样机制提供的那部分总体。原则上,您所做的推断将适合该部分人群。您(或读者)是否对这部分人口感兴趣?是另一个问题。
Wolfgang

7

p尽管在一个有问题的研究(一类所有已发表的文章都属于这一类)中,它们的价值是不可忽略的,但实际上仍需要报告这些价值,一个人可能会暗淡地贬低它们。考虑将您的叙述重点放在效果大小上,甚至可能仅放在叙述上。如果您的研究具有足够的代表性,可以提供有用的信息(这不必完全随机抽样,仅在解释的普遍性上要谨慎),则您的影响大小应具有比仅仅指出关系或差异的存在和方向更为广泛的含义。将讨论集中在效果大小上可以促进对关系或差异在实际意义上的重要性的更深入的理解,尽管这仍需要在研究主题的背景下加以考虑(例如,[R=.03ppp

另一个可能互补的选择是在您的脚注上进行扩展。您对审阅者所经历的问题的描述以及此页面上当前接受的答案都表明,没有传达足够的信息来说明您添加脚注的动机,也没有足够的动机激励读者遵循您对参考文献的引用你用来简洁地解释它。一个单独的附加句子,甚至是引用文献中的简短引用,都可能对解释您的脚注的价值和激发读者更深入的阅读有很大帮助。显然,您的脚注会尽快促使您对您低估试图破坏他们对不当假设的自满情绪的一种简单,消极,不屑一顾的反应。如果您用勺子喂养他们可能经常忽略的问题的一个或两个要点,那么读者的智力惰性可能会有所降低。此外,对于许多特殊问题,p

p

p完全重视!参见Senn (2001)Lew (2013)的一些罕见且有价值的(但仅部分)防御措施p。[编辑]:另外,我在一个新问题中提出了这个问题:“ 为什么0.05 <p <0.95结果被称为假阳性? ”在讨论我的答案时,OP提出了Hurlbert and Lombardi (2009),我提出了该问题。和我的同事一起,其中一位提出了Nuzzo (2014),这是一篇全新的《自然新闻》文章,引起了更多参考古德曼,2001年,1992年;戈罗楚恩,霍奇,海曼,杜纳和格林伯格,2007年 ...我显然并没有跟上这一步,但迈克尔显然并不孤单地捍卫从准确信息中提取有用信息的可能性p值(当他们做到 “严格执行”,至少)。

参考文献

-古德曼(SN)(1992)。关于复制,P值和证据的评论。医学统计学,11(7),875–879。
-古德曼(SN)(2001)。关于P值和贝叶斯:一个适度的建议。流行病学,第12卷第 3期,第295-297页。取自http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf
-古德曼(2008)。一打烂:十二个P值误解。血液学研讨会,45(3),135–140。取自http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf
-Gorroochurn,P.,Hodge,SE,Heiman,GA,Durner,M.,&Greenberg,DA(2007)。非重复关联研究:要复制的“伪失败”?遗传学杂志,9(6),325-331。从http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html检索。
-SH.Hurlbert和CM的Lombardi(2009)。内曼-皮尔逊决策理论框架的最终崩溃和新菲舍利安主义者的兴起。Annales Zoologici Fennici,46(5),311–349。取自http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf
-MJ卢(2013)。对P或不对P:关于P值的证据性质及其在科学推理中的位置。arXiv:1311.0081 [stat.ME]。从...获得http://arxiv.org/abs/1311.0081
-R.Nuzzo(2014年2月12日)。科学方法:统计错误。Nature News,506(7487)。取自http://www.nature.com/news/scientific-method-statistical-errors-1.14700
-Rosenthal,R.,Rosnow,RL&Rubin,DB(2000)。行为研究中的对比和影响大小:一种相关方法。剑桥大学出版社。
-Senn,S.(2001)。P值有两个欢呼声吗?流行病学和生物统计学杂志,6(2),193–204。取自http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf
-Wagenmakers,EJ(2007)。实际解决普遍存在的问题p values. Psychonomic Bulletin & Review, 14(5), 779–804. Retrieved from http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf.


3
Not all of the criticisms of P-values are correct or warranted, despite their vehemence. You should see these two papers for a few counterpoints to the commentaries that you cite: Two Cheers for P Values (by Stephen Senn) phil.vt.edu/dmayo/conference_2010/…; To P or Not To P (by me) arxiv.org/abs/1311.0081
Michael Lew

1
Excellent point! Thank you! I've edited slightly to include your contributions, and I may edit a bit more once I understand them well enough to incorporate their implications into the rest of what I've said. This is why I love Cross Validated...
Nick Stauner

2
您是否有任何实验证据可以证明爱德华兹的假设扩展到p值?我发现自己非常怀疑。以类推的方式,我看过几篇论文,证明即使是经验丰富的数据科学家也很难从散点图估计相关系数。您似乎向科学家提出了更多的要求,以了解ap值在可能性方面的含义。您支持似然函数的论点很有趣……它们的确看上去有点像后验分布,不是吗?
russellpierce 2014年

2
@rpierce I don't have experimental evidence for the understanding of users of statistical methods. I would, however, contend that at least some of the studies that have been done to see if scientists 'understand' p-values are fatally flawed by not including among the options a true evidentially meaningful description of the p-value. Your analogy is not close because the fact that correlation coefficients are not easily estimated is not the same problem as estimating the strength of evidence from a p-value.
Michael Lew

1
@rpierce The posterior probability density function from a uniform prior will be proportional to the likelihood function.
Michael Lew
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.