您经常在媒体上遇到各种结论相反的研究。这些可能与新处方药的测试或特定营养素的优点或与此相关的其他任何事物有关。
当两项这样的研究得出相互矛盾的结果时,您如何分辨两者中哪一个最接近真相?
您经常在媒体上遇到各种结论相反的研究。这些可能与新处方药的测试或特定营养素的优点或与此相关的其他任何事物有关。
当两项这样的研究得出相互矛盾的结果时,您如何分辨两者中哪一个最接近真相?
Answers:
如果您正在研究两项实验研究或实际的荟萃分析,我认为Jeromy的答案就足够了。但是通常我们经常要面对两项非实验性研究,并且要负责评估这两项不同发现的有效性。
正如赛勒斯的杂货店问题清单所暗示的那样,该主题本身不适合简短回答,而整本书实质上旨在解决此类问题。对于任何有兴趣进行非实验数据研究的人,我强烈建议您阅读
William R. Shadish,Thomas D. Cook,Donald Thomas Campbell的广义因果推论的实验和准实验设计(我也听说本文的旧版本同样出色)。
耶鲁(Jeromy)提到了几项内容(更大的样本量和更严格的方法学),赛勒斯(Cyrus)提到的所有内容都将被视为坎贝尔和库克所指的“内部有效性”。这些包括研究设计的方面以及用于评估X和Y之间关系的统计方法。特别是作为批评家,我们担心其中任何一个方面都可能使结果产生偏差,并降低结果的可靠性。由于这是一个致力于统计分析的论坛,因此许多答案都集中在统计方法上,以确保对您正在评估的任何关系进行无偏估计。但是,它们是研究设计的其他方面,与统计分析无关,无论统计分析采用什么严格的长度,都会削弱结果的有效性(例如,赛勒斯提到的实验保真度的几个方面可以解决,但不能通过以下方法解决)统计方法,如果出现这些方法,则始终会降低研究结果的有效性)。内部有效性的许多其他方面对于评估此处未提及的非实验研究的结果进行评估至关重要,而研究设计的各个方面可以区分研究结果的可靠性。我认为在这里过分详细一点是不合适的,
坎贝尔和库克还提到研究的“外部有效性”。研究设计的这一方面通常范围要小得多,不如内部有效性受到应有的重视。外部效度本质上是关于调查结果的一般性,我想说的是,外行人只要熟悉该主题,通常就可以合理地评估外部效度。长话短说,读了Shadish,Cook和Campbell的书。
该荟萃分析的文献是有关您的问题。使用荟萃分析技术,您可以估算跨研究汇总的兴趣效果。此类技术通常根据样本量对研究进行加权。
在元分析的背景下,研究人员谈论固定效应和随机效应模型(参见Hunter和Schmidt,2002年)。固定效应模型假设所有研究都在估计相同的种群效应。随机效应模型假设研究在估计的人口效应方面有所不同。随机效应模型通常更合适。
随着越来越多的研究关注特定的关系,越来越复杂的方法成为可能。例如,您可以根据各种属性(例如感知的质量)对研究进行编码,然后根据经验检查效应大小是否随这些研究特征而变化。除了质量,研究之间可能存在一些理论上相关的差异,这将缓和这种关系(例如,样品的特性,剂量水平等)。
通常,我倾向于相信以下方面的研究:
但这就是说,您需要保持随机抽样和研究之间的理论上有意义的差异,以作为对相互矛盾的研究结果的合理解释。
在您仔细检查了来源(如果目标人群可能存在偏差或变异)之前,我将不考虑进行荟萃分析。如果这些是治疗效果的研究,是否随机分配治疗?协议有偏差吗?是否存在违规行为?是否缺少结果数据?样本是从同一帧中提取的吗?有拒绝参加的机会吗?实施错误?是否正确计算了标准误差,并考虑了聚类并且对各种参数假设具有鲁棒性?只有在您回答了这些问题之后,我才认为荟萃分析问题开始出现。除非您愿意做出单方面的英勇假设,否则对于任何两项研究而言,荟萃分析都是适当的,这种情况很少见。