p值分布的高方差(Taleb 2016中的一个论点)


16

我正在尝试了解Taleb2016年提出的总体观点,即标准P值的元分布

在其中,Taleb针对p值的不可靠性提出了以下论点(据我所知):

对来自某个分布X的n数据点进行操作的估计过程将输出ap值。如果我们从该分布中获得n个点并输出另一个p值,则可以对这些p值求平均值,以在极限范围内获得所谓的“真实p值”。X

该“真实p值”显示出令人不安的高方差,因此具有“真实p值” 的分布+程序.12将有60%的时间报告p值<.05。

问题:这如何与赞成值的传统论点相吻合。据我了解,p值应该告诉您过程将为您提供正确间隔(或其他时间)的时间百分比。但是,本文似乎认为这种解释具有误导性,因为如果再次运行该过程,p值将不会相同。p

我错过了重点吗?


1
您能解释一下这种“传统论点”是什么吗?我不确定您正在考虑哪种论点。
Glen_b-恢复莫妮卡

这个问题很有趣,并且与CV甚至带有标签的文献有关,如果您认为合适的话,您可能希望添加p值的组合
mdewey

1
我相信有关p值重复性问题可能与此密切相关。也许那里的分析与这里提到的分析相似(甚至相同)。
ub

Answers:


13

p值是随机变量。

(至少对于连续分布的统计数据而言),p值应具有均匀的分布H0

对于一致的测试,在H1,随着样本量向无穷大增加,p值应在极限值中变为0。同样,随着效果大小的增加,p值的分布也应趋向于0,但始终会“散开”。

对我来说,“真实” p值的概念听起来像是胡说八道。在H 1下是什么意思?例如,您可能说您的意思是“ 在给定的效果量和样本量下,p值分布的均值H0H1 ”,但是从什么意义上说,在扩散应该缩小的地方,您有什么收敛呢?保持不变可以增加样本大小并不像。

这是一个示例,其中有一个样本t检验,并且在下的影响大小较小。当样本量较小时,p值几乎均匀,并且随着样本量增加,分布缓慢集中到0。H1

在此处输入图片说明

这就是p值的行为方式-对于虚假的null,随着样本量的增加,p值应更集中于低值,但是没有任何迹象表明p值在您使用时的分布产生II型错误-当p值高于您的显着性水平时-应该以某种方式最终“接近”该显着性水平。

那么,将p值的估计数值?这并不是说它收敛于某种东西(除了0以外)。尚不清楚为什么人们会期望p值在任何地方都具有低方差,但当它接近0时,即使当幂很好时(例如,对于α=0.05,在n = 1000的情况下,幂也接近57) %,但仍有可能将p值提高到接近1)

考虑在替代项下使用的任何测试统计信息的分布以及在null下应用cdf作为转换的结果对分布的影响(这将使p值在具体的替代方法)。当您用这些术语进行思考时,通常不难理解为什么行为如此。

我认为问题不仅仅在于p值或假设检验根本不存在任何内在问题,更多的是假设检验是否是解决您特定问题的好工具,或者还有其他更合适的选择在任何特定情况下-这不是宽泛争论的一种情况,而是对假设检验要解决的问题类型和您的具体情况的一种认真考虑。不幸的是,很少对这些问题进行仔细考虑-人们经常看到一个问题,形式为“我对这些数据使用什么测试?” 无需考虑任何关注的问题,更不用说假设检验是否是解决该问题的好方法。

困难之一是假设检验既被广泛误解又被广泛滥用。人们经常以为他们告诉我们他们没有的事情。对于假设检验,p值可能是最容易被误解的东西。


我认为值的收敛是由固定的n定义的,但是是实验的m个重复。除非我错过了什么。pnm
鳞翅目

@Lepidopterist复制在固定只是从该n处p值的分布中采样。在给定的n下,p值是一个随机变量;我从上面的一些示例中显示了样本的分布。您收敛到的不是某些“真实的” p值,而是上面显示的那种分布的平滑总体版本。nnn
Glen_b-恢复莫妮卡

1
H1H1

3
ñ

3
+1。我想到的一个相关且有趣的分析就是杰夫·卡明(Geoff Cumming)所说的“ p值之舞”:请参阅youtube.com/watch?v=5OL1RqHrZQ8(“跳舞”发生在大约9分钟标记处) 。整个简短介绍基本上都强调了即使相对较高的幂,p值也有多大的可变性。我不太同意卡明的要点,即置信区间比p值好得多(而且我讨厌他称其为“新统计”),但我确实认为,这种数量差异对于许多人和“跳舞”是演示它的一种可爱方式。
变形虫说莫妮卡(Monica)恢复

10

Glen_b的答案是(+1;考虑是我的补充)。Taleb所引用的论文与心理学和统计学文献中的一系列论文非常相似,这些论文涉及您可以通过分析p值的分布收集哪些信息(作者称之为p曲线;请使用a大量资源,包括此处的p曲线分析应用程序)。

作者提出了p曲线的两个主要用途:

  1. 您可以通过分析文学的p曲线来评估文学的证据价值。这是他们第一次宣传使用p曲线。本质上,正如Glen_b描述的那样,当您处理非零效果大小时,您应该看到p曲线正偏斜到传统阈值p <.05以下,因为较小的p值应该比p- p的当一个效果(或一组效果)为“真实”时,值更接近= .05。因此,您可以测试p曲线是否存在明显的正偏斜,以作为证据价值的检验。相反,开发人员建议您可以执行负偏斜测试(即,较大的临界p值大于较小的偏斜p值),以测试一组给定的效果是否已受到各种可疑分析实践的影响。
  2. 您可以使用带有已发布p值的p曲线来计算效果大小的无发布偏向元分析估计。简要说明一下这一点比较棘手,相反,我建议您查看他们关注效果大小估算的论文(Simonsohn,Nelson和Simmons,2014a,2014b),并亲自阅读这些方法。但是从本质上讲,作者建议在进行荟萃分析时可以使用p曲线来缓解文件抽屉效果的问题。

因此,关于以下更广泛的问题:

这如何与赞成p值的传统论点相吻合?

我想说像Taleb(和其他)这样的方法已经找到了重新设定p值用途的方法,这样我们就可以通过分析p值来获得有关整个文献的有用信息,而一个p值本身可能是其用途受到更多限制。

参考文献

美国西蒙索恩,纳尔逊(LD)和西蒙斯(JP)(2014a)。P曲线:文件抽屉的关键。实验心理学杂志:一般143,534-547。

美国西蒙森(Simonsohn),纳尔逊(LD)和西蒙斯(Simmons),JP(2014b)。P曲线和效果大小:仅使用显着结果校正出版偏差。心理科学展望9,666-681。

美国西蒙森(Simonsohn),西蒙斯(Simmons),JP和纳尔逊(Nelson)(2015)。更好的P曲线:使P曲线分析对错误,欺诈和野心勃勃的P黑客行为更加稳健,这是对Ulrich和Miller的回复(2015)。实验心理学杂志:一般144,1146年至1152年。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.