Answers:
我认为您的解释不正确。
您说“这些影响的大小可能很小,可能是由于采样过程中的轻微偏差而不是变量之间的(不一定是直接的)因果关系引起的”,这似乎暗示着“过大”的P值研究与“适当”支持的研究中的P值不同。那是错的。在这两种情况下,P值都是获得与观察到的数据一样极端的数据的概率,如果零假设为真,则为更极端的数据。
如果您更喜欢Neyman-Pearson方法,并且如果两者均使用相同的alpha值,则从“超能力”研究获得的假阳性错误率与“正当”能力研究获得的假阳性率相同。
所需的解释上的差异在于,对于超能力的研究,统计意义和科学意义之间存在不同的关系。实际上,尽管正如您所说,效果微乎其微,所以重要性高的研究仍将有很大的可能性获得意义,因此,其重要性值得怀疑。
只要适当地解释“超能力”研究的结果(效应大小的置信区间有助于这种解释),“超能力”研究就不会有统计问题。有鉴于此,一项研究实际上可以被压倒的唯一标准是其他答案中提出的道德和资源分配问题。
您所说的一切都是有道理的(尽管我不知道您指的是什么“大不了”),我尤其如此。例如关于效果大小而不是统计意义的观点。另一个考虑因素是,有些研究需要分配稀缺的资源来获得每个案例的参与,因此,人们不想过分这样做。
我的经验来自在线A / B实验,其中的问题通常是研究不足或测量错误的东西。但是在我看来,与其他同类研究相比,一项过分的研究产生了更窄的置信区间,更低的p值和可能不同的方差。我想这会使比较相似的研究变得更加困难。例如,如果我使用适当的功效重复了一次过份的研究,那么即使我完全复制了效果,我的p值也会更高。如果存在离群值,较大的样本中出现更高概率的样本,增加的样本大小甚至可以消除变异性或引入变异性。
此外,我的模拟结果表明,对于较大的样本,除您感兴趣的效果以外的其他效果可能会变得很重要。因此,尽管p值正确地告诉您结果是真实的概率,但它们可能是真实的,其原因可能不是您所想的,例如,机会的组合,您无法控制的某些短暂影响,以及其他一些原因您引入的效果更小而没有意识到。如果这项研究有些过于强大,那么这样做的风险就很小。问题通常是很难知道是否具有足够的功效,例如,基准度量标准和最小目标效果是否为猜测值或与预期不同。
我也遇到过一篇文章,该文章认为样本过多会导致拟合优度测试对无关紧要的偏差过于敏感,从而可能导致违反直觉的结果。
就是说,我认为最好是在高功率而不是低功率方面犯错。