当它们给您带来矛盾的结果时,如何确定哪个是更好的研究?


11

您经常在媒体上遇到各种结论相反的研究。这些可能与新处方药的测试或特定营养素的优点或与此相关的其他任何事物有关。

当两项这样的研究得出相互矛盾的结果时,您如何分辨两者中哪一个最接近真相?


也许应该是CW?这个问题将没有唯一的答案,并且可能出现多种观点和方法。
ub

2
@whuber我会投票反对CW,因为即使有不同的观点,也可能是一种最佳方法。这类似于可以使用不同的框架/模型检验相同假设的方法,但是可能存在一种最佳方法。

@Srikant:在任何特定情况下,我都能想象您可以为自己的主张提供强大的辩护。总的来说,尽管这是目前的情况,但最佳的答案取决于具体情况。作为一个简单(且不完整)的示例,请考虑一下在评估一对设计的物理实验(例如测量光速,历史上大多数置信区间都错过了真相!)与社会科学中的观察性研究之间的差异。 。
ub

@whuber也许,我们应该继续在meta上进行对话。我承认我对于何时使用CW以及何时不使用CW仍然很模糊:对于这个问题,最好的答案将是答案取决于上下文,并通过一些示例解释原因。无论如何,我以某种方式感到这个问题不应该是CW,但是除了上面概述的原因之外,我无法阐明其他原因。

Answers:


3

如果您正在研究两项实验研究或实际的荟萃分析,我认为Jeromy的答案就足够了。但是通常我们经常要面对两项非实验性研究,并且要负责评估这两项不同发现的有效性。

正如赛勒斯的杂货店问题清单所暗示的那样,该主题本身不适合简短回答,而整本书实质上旨在解决此类问题。对于任何有兴趣进行非实验数据研究的人,我强烈建议您阅读

William R. Shadish,Thomas D. Cook,Donald Thomas Campbell的广义因果推论实验和准实验设计(我也听说本文的旧版本同样出色)。

耶鲁(Jeromy)提到了几项内容(更大的样本量和更严格的方法学),赛勒斯(Cyrus)提到的所有内容都将被视为坎贝尔和库克所指的“内部有效性”。这些包括研究设计的方面以及用于评估X和Y之间关系的统计方法。特别是作为批评家,我们担心其中任何一个方面都可能使结果产生偏差,并降低结果的可靠性。由于这是一个致力于统计分析的论坛,因此许多答案都集中在统计方法上,以确保对您正在评估的任何关系进行无偏估计。但是,它们是研究设计的其他方面,与统计分析无关,无论统计分析采用什么严格的长度,都会削弱结果的有效性(例如,赛勒斯提到的实验保真度的几个方面可以解决,但不能通过以下方法解决)统计方法,如果出现这些方法,则始终会降低研究结果的有效性)。内部有效性的许多其他方面对于评估此处未提及的非实验研究的结果进行评估至关重要,而研究设计的各个方面可以区分研究结果的可靠性。我认为在这里过分详细一点是不合适的,

坎贝尔和库克还提到研究的“外部有效性”。研究设计的这一方面通常范围要小得多,不如内部有效性受到应有的重视。外部效度本质上是关于调查结果的一般性,我想说的是,外行人只要熟悉该主题,通常就可以合理地评估外部效度。长话短说,读了Shadish,Cook和Campbell的书。


8

荟萃分析的文献是有关您的问题。使用荟萃分析技术,您可以估算跨研究汇总的兴趣效果。此类技术通常根据样本量对研究进行加权。

在元分析的背景下,研究人员谈论固定效应和随机效应模型(参见Hunter和Schmidt,2002年)。固定效应模型假设所有研究都在估计相同的种群效应。随机效应模型假设研究在估计的人口效应方面有所不同。随机效应模型通常更合适。

随着越来越多的研究关注特定的关系,越来越复杂的方法成为可能。例如,您可以根据各种属性(例如感知的质量)对研究进行编码,然后根据经验检查效应大小是否随这些研究特征而变化。除了质量,研究之间可能存在一些理论上相关的差异,这将缓和这种关系(例如,样品的特性,剂量水平等)。

通常,我倾向于相信以下方面的研究:

  • 更大的样本量
  • 更加严格的方法
  • 确定性取向(例如,不是一项研究,他们没有测试100种不同营养素与50种健康结果之间的相关性)
  • 不存在利益冲突(例如,不是由具有商业利益的公司来表示一种关系;不是由有动机去寻找重大结果的研究人员)

但这就是说,您需要保持随机抽样和研究之间的理论上有意义的差异,以作为对相互矛盾的研究结果的合理解释。


我特别喜欢似然比作为荟萃分析中汇总证据的一种方法。如果您有足够的数据来为每个研究计算它们,则只需在各个研究中计算乘积就可以代表/反对假设的汇总证据。
Mike Lawrence 2010年

在赛勒斯回答后,我评论了元分析的相关性,但对其他所有内容(尤其是要点)都表示赞同。
ub

@whuber @Gaetan的问题假定一项研究更接近事实。我尝试退后一步,并在荟萃分析框架内将研究之间的结果差异放在原来的位置,并承认研究可能具有同等质量,但可能是随机抽样或实质性差异。
Jeromy Anglim

@whuber即使进行了两项研究,也有可能对感兴趣的影响进行元分析估计。当然,效果估计的置信区间可能很大。但是,如果仅进行了两项研究,并且得出的结果相互矛盾,则存在很大的不确定性。
Jeromy Anglim

5

在您仔细检查了来源(如果目标人群可能存在偏差或变异)之前,我将不考虑进行荟萃分析。如果这些是治疗效果的研究,是否随机分配治疗?协议有偏差吗?是否存在违规行为?是否缺少结果数据?样本是从同一帧中提取的吗?有拒绝参加的机会吗?实施错误?是否正确计算了标准误差,并考虑了聚类并且对各种参数假设具有鲁棒性?只有在您回答了这些问题之后,我才认为荟萃分析问题开始出现。除非您愿意做出单方面的英勇假设,否则对于任何两项研究而言,荟萃分析都是适当的,这种情况很少见。


但是这些步骤是否已不是荟萃分析的一部分?
chl

3
@chl:的确如此,但关键是这些步骤已达到问题的实质。荟萃分析只有在有很多研究(不仅是两项)而且其优点已经得到仔细评估的情况下才有用。摆在我们面前的问题实际上是首先问到如何评估一项研究或一对矛盾的研究的质量。赛勒斯指出了这一点的许多方面。合理的待遇通常需要一两个学期的大学水平学习。有鉴于此,我认为他对“英雄”一词的使用有些低估了!
ub

1
@whuber是的,我同意你和@Cyrus的意见。当然,评估先前研究的质量和可信度是必不可少的步骤(并且需要花费时间来审查每项研究,尤其是当由于MS中缺少信息而不得不与作者联系时);我只是认为这是荟萃分析的一部分,而“统计部分”简化为带来了可信赖结果的定量摘要。
chl 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.