统计和大数据 replicability

卡明（2008）声称，复制过程中获得的p值的分布仅取决于原始p值。怎么可能是真的？

我一直在阅读杰夫·卡明（Geoff Cumming）在2008年发表的论文《复制和区间：值只是模糊地预测未来，但置信区间的确好得多》pppppp （《 Google学术搜索》中的〜200篇引文），并且被其核心观点之一所迷惑。这是卡明（Cumming）反对并主张置信区间的一系列论文之一。但是，我的问题与这场辩论无关，仅涉及关于一项具体主张。pppppp 让我引用摘要：本文显示，如果初始实验的结果是两尾，则复制中的单尾值有机会落在区间，的机会，，充分一个的机会。值得注意的是，该间隔（称为间隔）是如此之大，无论样本大小如何。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p<.00008p<.00008p < .0000810%10%10\%p>.44p>.44p > .44ppp 卡明（Cumming）声称，此“区间”以及实际上在复制原始实验（具有相同的固定样本大小）时将获得的的整个分布仅取决于原始值和不依赖于真实效果尺寸，功率，样本大小，或其他任何东西：ppppppppppobtpobtp_\mathrm{obt} 可以推导的概率分布，而无需知道或假设（或幂）的值。[...]我们不假设任何有关先验知识，而仅使用信息 [观察到的组间差异]给出了作为给定的计算基础和间隔的分布的。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 我对此感到困惑，因为在我看来，的分布很大程度上取决于幂，而原始本身并没有提供任何有关幂的信息。实际效果大小可能是，然后分布是均匀的；或真实效果的大小可能很大，那么我们应该期望大多数很小。当然，可以先假设一些可能的效果大小并对其进行积分，但是卡明似乎声称这不是他正在做的事情。ppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 问题：这到底是怎么回事？请注意，此主题与以下问题有关：重复实验的哪个部分在第一个实验的95％置信区间内将具有影响大小？@whuber提供了一个很好的答案。卡明（Canmming）对此主题发表了一篇论文，内容为：卡明（Cumming）和Maillardet，2006年，置信区间和复制：下一个均值将落在哪里？-但是这一点很明确，没有问题。我还注意到，卡明的主张在2015年《自然方法》论文中被重复了好几次。善变的值会产生PPP某些人可能遇到的不可再现的结果（在Google学术搜索中已被引用约100次）：重复实验的值将有很大变化。实际上，很少重复进行实验。我们不知道下一个可能有多大差异。但它可能会大不相同。例如，不管实验的统计能力如何，如果单次重复实验的值为，则重复实验返回值在到之间的可能性为（变化为（原文如此，会更大）。PPPPPPPPP0.050.050.0580%80%80\%PPP0000.440.440.4420%20%20\%PPP （请注意，顺便说一下，怎么样，不管卡明的说法是否正确，自然的方法报导援引它不准确：根据卡明，它只有以上的概率。是的，纸张也说：“20％CHAN g e“。Pfff。）10%10%10\%0.440.440.44

52 hypothesis-testing p-value power replicability

在第一个实验的95％置信区间内，重复实验的哪个比例的效应大小？

让我们坚持理想的情况，使用随机抽样，高斯总体，均等方差，无P黑客攻击等。步骤1.您运行一个实验，说比较两个样本均值，然后为这两个总体均值之间的差异计算95％的置信区间。第2步。您进行了更多的实验（数千个）。由于随机抽样，平均值之间的差异因实验而异。问题：步骤2中的实验收集所得的均值之间的差异的哪一部分位于步骤1的置信区间内？那无法回答。这完全取决于步骤1中发生的情况。如果步骤1中的实验非常不典型，则该问题的答案可能非常低。因此，想象两个步骤都重复了很多次（步骤2重复了很多次）。我认为，现在应该有可能对重复实验的平均比例有一个期望，该效应大小在第一次实验的95％置信区间内。似乎需要了解这些问题的答案，以评估研究的可重复性，这是一个非常热门的领域。

12 confidence-interval replicability

Questions tagged «replicability»