如果“比较”是“计划中的”，您是否仍需要校正多个比较？

20

我正在审查已执行> 15次单独的2x2卡方测试的论文。我建议他们需要对多个比较进行更正，但是他们回答说所有比较都是已计划的，因此这不是必需的。

我觉得这一定是不正确的，但找不到任何明确说明是否存在这种情况的资源。

有人可以帮助吗？

更新：

感谢您的所有非常有帮助的回复。为了响应@gung要求提供有关研究和分析的更多信息的要求，他们正在三种情况下，在两种情况下比较两种类型参与者（学生，非学生）的计数数据。多个2x2卡方检验正在针对每种类型的参与者在每种条件下比较每个时间段（如果有意义；例如，学生，条件1，时间段1与时间段2），因此所有分析都在测试相同的假设。

hypothesis-testing multiple-comparisons

— 杰伊博士
source

2

许多进行多次比较的人都计划先验先验。他们之所以这样做，是因为他们想控制整体I型错误率。在某些情况下，不对多个比较进行校正可能是合理的，但这不仅仅是计划从一开始就进行所有比较。

— Glen_b-恢复莫妮卡

3

您能否再说一下这项研究，他们的数据以及那里的分析？> 15等于所有可能的比较，还是只有很小的百分比？他们有多少数据？假设全都是先验的，这看起来有多合理？它们都重要吗？卡方检验是否彼此独立？还请考虑@peuhp答案中提出的一些问题。

— gung-恢复莫妮卡

4

因为“他们”可能有兴趣寻找重大成果，所以他们的回应是自私的。因此，他们有责任证明自己的做法合法，而不是让您证明自己的做法不合法。任何表明可以忽略多个比较错误的尝试都将在考虑纸张范围内的误报率后立即失败，因此“他们”必须（隐含地）避免对该问题的所有考虑，或者就为什么会提供一个很好的论据对于目标受众而言，这无关紧要。

— whuber

1

我非常想用此XKCD带的链接进行响应（您可能会注意到，该带涉及一系列全面计划的多项测试...）。

— Ilmari Karonen

21

恕我直言，这是一个复杂的问题，我想就这种情况发表三点意见。

首先，总的来说，我将更着重于您面对的是一个有争议的上下文中定义的，格式良好的假设的确证性研究，还是面临着观察到许多可能指标的解释性研究，而不是是否进行了计划（因为您可以只需计划进行所有可能的比较）。

其次，我还将重点讨论如何讨论所得的p值。是将它们单独用作一组确定的结论，还是将它们作为证据和缺乏证据共同讨论？

最后，我将讨论由> 15个独立的卡方检验得出的> 15个假设实际上是可以概括的单个假设（可能是单个假设）的表达的可能性。

更一般而言，无论假设是否预先指定，是否要进行多次比较校正都取决于您在I类错误中所包含的内容。通过不对MC进行校正，您只能保留每个比较类型I的错误率控制。因此，在进行大量比较的情况下，您具有较高的I类错误率，因此更容易出现错误发现。

— eu
source

8

（+1）可能值得说明的是，实验方式的错误率不受计划的15个个人比较的控制；另一方面，在多比较校正中，无需考虑超出方案未设想的十五种比较。

— Scortchi-恢复莫妮卡

@Scortchi感谢您的输入，但我不明白“实验性错误率不受计划的15个个人比较的控制”是什么意思？

— peuhp

1

这是一个基本要点，如果要在所有这些测试中将一个或多个I类错误设为零的情况下控制概率，则确实需要使用多重比较过程。我之所以只提它，是因为我以前在这个问题上遇到过困惑。

— Scortchi-恢复莫妮卡

2

请注意，在最近的一个线程中出现了这个完全相同的问题：多重比较的事后应用。

— Michael R. Chernick

1

@斯科特基好的，感谢您的澄清和投入，这确实应该在我的回答中明确说明。将添加此。

— peuhp

5

考虑到您对设计的更新，我建议他们做某种形式的对数线性模型以一次使用所有数据。进行他们所做的零碎分析似乎（a）效率低（b）不科学，因为它测试了15个假设，而实际假设肯定更少。

我不喜欢将多重性校正为条件反射，但在这种情况下，如果他们拒绝更深入的分析方法，那么我建议他们进行校正。

— 麦迪威
source

1

如果所有测试都测试相同的假设，则还可以使用某种荟萃分析工具将15个测试的结果“组合”为一个。您是荟萃分析的专家，因此也许您可以提出更具体的建议。最简单的是，我见过人们计算p值以获得

k

$k$ 重大成果

15

$15$ 测试；但这假设独立性，在OP的情况下显然是不正确的。

— 变形虫说莫妮卡（Monica）恢复职权

1

@amoeba我认为这将是不得已的方法，因为我不禁要感到有比15岁以上更好的分析方式

χ^{2}

$\chi^2$ 测试。

— mdewey

4

如果用“有计划的”代替“计划的”，这可能有助于消除作者提出的论点。考虑对同一数据的两种不同的统计分析：

一种“预谋犯罪”，其中“统计犯罪策划者”预先组合了每种可能的假设检验，该计划是系统地尝试每一项，并选择p值最小的检验作为“关键发现”。以促进本文的“结果”，“讨论”和“结论”部分，以及标题。
一种“激情犯罪”，其最初意图只是用一种假设来对付数据，但“好吧……一件事导致另一种假设”，而多个即席假设检验则在科学激情的驱使下“发生”。从数据中学习“什么 …… 任何东西！ ”。

无论哪种方式，它都是“谋杀”-问题是它处于一等学位还是二等学位。显然，第一个在道德上更成问题。在我看来，似乎这里的作者正试图声称某件事并非谋杀，因为它是有预谋的。

— 戴维·诺里斯
source

4

但是，进行多重比较不是有预谋的犯罪。P狩猎是。

— Cliff AB

1

本文直接解决了您的问题：http : //jrp.icaap.org/index.php/jrp/article/view/514/417

（佛朗哥，AV，“计划假设检验不一定免于多重调整”，《研究实践》，2015年）

— 邦费罗尼
source