荟萃分析包括大量研究,所有研究均报告P值大于0.05。整体荟萃分析报告的P值是否可能小于0.05?什么情况下
(我很确定答案是肯定的,但是我想提供参考或解释。)
荟萃分析包括大量研究,所有研究均报告P值大于0.05。整体荟萃分析报告的P值是否可能小于0.05?什么情况下
(我很确定答案是肯定的,但是我想提供参考或解释。)
Answers:
个别研究的结果可能微不足道,但综合来看,结果可能会很重要。
从理论上讲,你可以通过处理结果进行研究像任何其他随机变量。
令是一些随机变量(例如,研究的估计值)。然后,如果是独立的且,则可以通过以下方式一致地估计均值:
加入更多的假设,让是估计的方差。然后,您可以使用逆方差加权有效地估算:
在这两种情况下可能是在一定的信心水平上显显著即使个别估计都没有。
如果然后荟萃分析可能不收敛到(即平均值的荟萃分析的是不一致的估计器)。
例如,如果对发布负面结果存有偏见,那么这种简单的荟萃分析可能会前后矛盾且带有偏见!就像仅通过观察硬币未落尾的翻转来估计硬币翻转落下的概率一样!
和 y j可能不是独立的。例如,如果两项研究 i和 j基于相同的数据,则在荟萃分析中将 y i和 y j视为独立的可能会大大低估标准误和夸大统计意义。您的估计仍然是一致的,但是标准误差需要合理地考虑研究中的互相关。
组合(1)和(2)可能特别糟糕。
例如,平均民意测验的荟萃分析往往比任何单个民意测验更准确。但是将轮询平均在一起仍然很容易受到相关误差的影响。过去的选举中发生的事情是,年轻的退出民意调查工作者可能倾向于采访其他年轻人而不是老人。如果所有出口民意测验都产生相同的错误,那么您可能会认为估算值不错,您可能会认为这是一个不错的估计(出口民意测验是相关的,因为它们使用相同的方法进行出口民意测验,并且此方法会产生相同的错误)。
毫无疑问,更熟悉荟萃分析的人们可能会提出更好的例子,更细微的问题,更复杂的估算技术等...,但这涉及到一些最基本的理论和一些更大的问题。如果不同的研究产生独立的随机误差,那么荟萃分析可能会非常有用。如果跨研究的错误是系统性的(例如,每个人都低估了年长选民等),那么研究的平均值也将不正确。如果您低估了相关研究的程度或相关误差的程度,那么您实际上就高估了样本总数,而低估了标准误差。
一致性定义等还有各种实际问题...
是。假设你有从p值ñ独立研究。
费舍尔测试
(编辑-为响应下面的@mdewey的有用评论,区分不同的元测试很重要。我在下面阐明了mdewey提到的另一个元测试的情况)
经典费希尔元测试(参见费舍尔(1932),“用于研究工作者的统计方法”)的统计 具有χ 2 2 Ñ零分布,如- 2 LN (û )〜χ 2 2对于均匀RV ü。
Let denote the -quantile of the null distribution.
Suppose all p-values are equal to , where, possibly, . Then, and when
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904
Of course, what the meta statistic tests is "only" the "aggregate" null that all individual nulls are true, which is to be rejected as soon as only one of the nulls is false.
EDIT:
Here is a plot of the "admissible" p-values against , which confirms that grows in , although it seems to level off at .
I found an upper bound for the quantiles of the distribution
Inverse Normal test (Stouffer et al., 1949)
The test statistic is given by
More specifically, if , which tends to from below as .
The answer to this depends on what method you use for combining -values. Other answers have considered some of these but here I focus on one method for which the answer to the original question is no.
The minimum method, also known as Tippett's method, is usually described in terms of a rejection at the level of the null hypothesis. Define
It is easy to see the since the th root of a number less than unity is closer to unity the last term is greater than and hence the overall result will be non-significant unless is already less than .
It is possible to work out the critical value and for example if we have ten primary studies each with a -values of 00.05 so as close to significant as can be then the overall critical value is 0.40. The method can be seen as a special case of Wilkinson's method which uses for and in fact for the particular set of primary studies even is not significant ()
L H C Tippett's method is described in a book The methods of statistics. 1931 (1st ed) and Wilkinson's method is here in an article "A statistical consideration in psychological research"