p值是随机变量。
在(至少对于连续分布的统计数据而言),p值应具有均匀的分布H0
对于一致的测试,在H1,随着样本量向无穷大增加,p值应在极限值中变为0。同样,随着效果大小的增加,p值的分布也应趋向于0,但始终会“散开”。
对我来说,“真实” p值的概念听起来像是胡说八道。在或H 1下是什么意思?例如,您可能说您的意思是“ 在给定的效果量和样本量下,p值分布的均值H0H1 ”,但是从什么意义上说,在扩散应该缩小的地方,您有什么收敛呢?保持不变可以增加样本大小并不像。
这是一个示例,其中有一个样本t检验,并且在下的影响大小较小。当样本量较小时,p值几乎均匀,并且随着样本量增加,分布缓慢集中到0。H1
这就是p值的行为方式-对于虚假的null,随着样本量的增加,p值应更集中于低值,但是没有任何迹象表明p值在您使用时的分布产生II型错误-当p值高于您的显着性水平时-应该以某种方式最终“接近”该显着性水平。
那么,将p值的估计数值的?这并不是说它收敛于某种东西(除了0以外)。尚不清楚为什么人们会期望p值在任何地方都具有低方差,但当它接近0时,即使当幂很好时(例如,对于α=0.05,在n = 1000的情况下,幂也接近57) %,但仍有可能将p值提高到接近1)
考虑在替代项下使用的任何测试统计信息的分布以及在null下应用cdf作为转换的结果对分布的影响(这将使p值在具体的替代方法)。当您用这些术语进行思考时,通常不难理解为什么行为如此。
我认为问题不仅仅在于p值或假设检验根本不存在任何内在问题,更多的是假设检验是否是解决您特定问题的好工具,或者还有其他更合适的选择在任何特定情况下-这不是宽泛争论的一种情况,而是对假设检验要解决的问题类型和您的具体情况的一种认真考虑。不幸的是,很少对这些问题进行仔细考虑-人们经常看到一个问题,形式为“我对这些数据使用什么测试?” 无需考虑任何关注的问题,更不用说假设检验是否是解决该问题的好方法。
困难之一是假设检验既被广泛误解又被广泛滥用。人们经常以为他们告诉我们他们没有的事情。对于假设检验,p值可能是最容易被误解的东西。