引用龚的好答案
据称,一位研究人员曾经以“不重要”的结果向费舍尔求助,问他应该怎么做,费舍尔说“要获取更多数据”。
从Neyman-Pearson的角度来看,这是公然的 hacking,但是在费雪的go-get-more-data方法中是否存在用例呢?
引用龚的好答案
据称,一位研究人员曾经以“不重要”的结果向费舍尔求助,问他应该怎么做,费舍尔说“要获取更多数据”。
从Neyman-Pearson的角度来看,这是公然的 hacking,但是在费雪的go-get-more-data方法中是否存在用例呢?
Answers:
经常性范式是费舍尔和内曼·皮尔森的观点的混合体。只有使用一种方法和另一种解释,问题才会出现。
对于任何人来说,收集更多的数据都是有问题的,这似乎很奇怪,因为更多的数据是更多的证据。的确,问题不在于收集更多数据,而在于使用值来决定这样做,而值也可以用来衡量利益。收集基础上,更多的数据 -值只有如果你计算出一个新-hacking -值。
如果您没有足够的证据对研究问题做出令人满意的结论,那么请务必获取更多数据。但是,请承认您现在已经超出了NHST的研究阶段,而专注于量化感兴趣的影响。
有趣的是,贝叶斯主义者没有遭受这种困境。考虑以下示例:
鉴于一个足够大的样本量,测试将始终显示显著的结果,除非真正的效果大小正好等于零,讨论在这里。实际上,实际效果的大小不是零,因此收集更多的数据最终将能够检测出最小的差异。
费舍尔(IMO)的多面性回答是对一个相对琐碎的问题的回答,该问题在其前提下将“重大差异”与“实际相关差异”混为一谈。
这就相当于一个研究员来到我的办公室,问“我称重为标有'25克'的铅的重量,重量为25.0克。我认为标签不正确,我该怎么办?” 我可以回答:“获得更精确的比例”。
我认为,如果初始测试的功能不足以检测实际相关的差异幅度,那么获取更多数据的方法是合适的。
谢谢。这里有几件事要牢记:
我们称为P-hacking的方法是多次应用重要性测试,并且仅报告重要性结果。这是好是坏取决于情况。
为了解释,让我们考虑一下贝叶斯术语中的真实效果,而不是原假设和替代假设。只要我们相信感兴趣的影响来自连续分布,那么我们就知道原假设是错误的。但是,对于双面测试,我们不知道它是阳性还是阴性。在这种情况下,我们可以将双面检验的p值视为衡量我们的估计具有正确方向(即正面或负面影响)的证据有多强的度量。
现在,考虑继续返回以获取更多数据时会发生什么。每次您获取更多数据时,仅在有足够数据的情况下获得方向正确的可能性才会增加。因此,在这种情况下,我们应该意识到,尽管实际上增加了I型错误的可能性,但通过获取更多数据,我们也减少了错误地得出错误方向的可能性。
与此相反,更典型的滥用P-hacking的行为;我们测试了100种效果大小,这些大小很可能很小,并且仅报告显着大小。请注意,在这种情况下,如果所有影响都很小,那么当我们声明重要性时,我们将有接近50%的机会弄错方向。
当然,从此数据加倍运算中得到的p值仍应带有盐分。通常,虽然人们应该收集更多数据来确定效果大小没有问题,但是这可能会以其他方式被滥用。例如,一个聪明的PI可能会意识到,与其立即收集所有100 个数据点,不如节省大量资金并通过先收集50个数据点,分析数据然后再收集不重要的下50个数据点来增加功能。在这种情况下,它们增加了在声明重要性的条件下获得错误方向的可能性,因为与50个数据点相比,与100个数据点相比,它们更有可能获得错误的方向。
最后,考虑当结果微不足道时不获取更多数据的含义。那将意味着永远不会收集有关该主题的更多信息,这不会真正推动科学的发展吗?一项功能不足的研究会杀死整个领域。
如果替代方案具有较小的先验概率,则无法拒绝零值的实验将进一步降低其价值,从而使进一步的研究更具成本效益。例如,假设先验概率为0.01。那么您的熵是.08位。如果概率降为.001,那么您的熵现在为.01。因此,继续收集数据通常没有成本效益。之所以具有成本效益,是因为知道是如此重要,以至于即使剩下的.01熵也值得减少。
另一个原因是先验概率是否真的很高。如果您的先验概率大于50%,那么不拒绝零值会增加您的熵,使继续收集数据更具成本效益。一个例子是,当您几乎可以肯定会产生影响时,却不知道朝哪个方向。
例如,如果您是一名反情报人员,并且您确定某个部门有痣,并且已将其缩小到两名嫌疑犯,并且正在进行一些统计分析以决定是哪个,那么统计上无关紧要的结果将证明收集是正当的更多数据。