一项研究超负荷意味着什么？

11

一项研究超负荷意味着什么？

我的印象是，这意味着您的样本量太大，以至于您有能力检测微小的效应量。这些影响的大小可能很小，以至于它们比变量之间的因果关系（不一定是直接因果关系）更可能是由采样过程中的轻微偏差引起的。

这是正确的直觉吗？如果是这样，我不认为有什么大不了的，只要以这种方式解释结果，然后您手动检查并查看估计的效果大小是否足够大以至于“有意义”。

我想念什么吗？关于在这种情况下该怎么做，有更好的建议吗？

— 弗兰克·巴里
source

听起来完全像我对这个词的直觉理解。

— 亨里克（Henrik）

11

我认为您的解释不正确。

您说“这些影响的大小可能很小，可能是由于采样过程中的轻微偏差而不是变量之间的（不一定是直接的）因果关系引起的”，这似乎暗示着“过大”的P值研究与“适当”支持的研究中的P值不同。那是错的。在这两种情况下，P值都是获得与观察到的数据一样极端的数据的概率，如果零假设为真，则为更极端的数据。

如果您更喜欢Neyman-Pearson方法，并且如果两者均使用相同的alpha值，则从“超能力”研究获得的假阳性错误率与“正当”能力研究获得的假阳性率相同。

所需的解释上的差异在于，对于超能力的研究，统计意义和科学意义之间存在不同的关系。实际上，尽管正如您所说，效果微乎其微，所以重要性高的研究仍将有很大的可能性获得意义，因此，其重要性值得怀疑。

只要适当地解释“超能力”研究的结果（效应大小的置信区间有助于这种解释），“超能力”研究就不会有统计问题。有鉴于此，一项研究实际上可以被压倒的唯一标准是其他答案中提出的道德和资源分配问题。

— 迈克尔·卢
source

谢谢，这是非常有用的。我了解p值的定义不会改变。当然，从统计角度来看，I型错误的发生率并没有增加。

— Frank Barry

1

根据定义，我们在设置p值阈值时固定了I型错误率。但是，似乎“统计的”和“实际的”重要性之间的差异是这里的问题。当样本量能够检测到比预期效应量要细得多的差异时，在统计学上正确区分的差异就没有实际意义（并且从“最终用户”的角度来看，即使是这不是统计数据）。但是，正如您所说，这开始超出统计领域。

— Frank Barry

1

即我认为我同意-“需要的解释上的差异是统计意义和科学意义之间存在不同的关系”

— Frank Barry

4

在医学研究中，如果招募太多患者，可能是不道德的。例如，如果目标是确定哪种治疗更好，那么在确定劣等治疗后再对患者进行治疗就不再是道德上的选择了。当然，增加样本数量可以使您更准确地估算出效应量，但是您可能必须停下来，才能出现“采样过程中的轻微偏差”等因素的效应。

花费公共资金进行充分证实的研究也可能是不道德的。

— 加博古利亚
source

1

您所说的一切都是有道理的（尽管我不知道您指的是什么“大不了”），我尤其如此。例如关于效果大小而不是统计意义的观点。另一个考虑因素是，有些研究需要分配稀缺的资源来获得每个案例的参与，因此，人们不想过分这样做。

— 罗兰多2
source

抱歉，“大不了”太多的社论评论。这是否是一个比我说的要“更大的交易”的问题，基本上是一个问题，即是否还有我可能不了解的其他考虑因素。

— Frank Barry

0

我的经验来自在线A / B实验，其中的问题通常是研究不足或测量错误的东西。但是在我看来，与其他同类研究相比，一项过分的研究产生了更窄的置信区间，更低的p值和可能不同的方差。我想这会使比较相似的研究变得更加困难。例如，如果我使用适当的功效重复了一次过份的研究，那么即使我完全复制了效果，我的p值也会更高。如果存在离群值，较大的样本中出现更高概率的样本，增加的样本大小甚至可以消除变异性或引入变异性。

此外，我的模拟结果表明，对于较大的样本，除您感兴趣的效果以外的其他效果可能会变得很重要。因此，尽管p值正确地告诉您结果是真实的概率，但它们可能是真实的，其原因可能不是您所想的，例如，机会的组合，您无法控制的某些短暂影响，以及其他一些原因您引入的效果更小而没有意识到。如果这项研究有些过于强大，那么这样做的风险就很小。问题通常是很难知道是否具有足够的功效，例如，基准度量标准和最小目标效果是否为猜测值或与预期不同。

我也遇到过一篇文章，该文章认为样本过多会导致拟合优度测试对无关紧要的偏差过于敏感，从而可能导致违反直觉的结果。

就是说，我认为最好是在高功率而不是低功率方面犯错。

— 弗拉德
source