Answers:
我强烈反对@fcoppens的飞跃,从认识到在单个调查中进行多重假设校正的重要性到宣称“通过相同的推理,如果多个团队执行这些测试,则同样成立”,我对此表示强烈反对。
毫无疑问,进行的研究越多,检验的假设越多,则发生的I型错误就越多。但是,我认为“家庭错误率”的含义及其在实际科学工作中的应用方式存在混淆。
首先,请记住,多次测试更正通常是在事后比较中产生的,因为没有预先设定的假设。尚不清楚在有少量预定义的假设时是否需要相同的更正。
其次,单个出版物的“科学真理”并不取决于出版物中每个陈述的真实性。一个经过精心设计的研究会从许多不同的角度研究整体科学(相对于统计)假设,并将不同类型的结果放在一起以评估科学假设。每个单独的结果都可以通过统计测试进行评估。
然而,通过从@fcoppens的说法,如果连一个的单独的统计检验,使I型错误,然后导致了“‘科学真理’的错误信念”。这是完全错误的。
与单个统计检验的有效性相反,出版物中科学假设的“科学真理” 通常来自不同类型证据的组合。坚持多种类型的证据使科学假设的有效性对于不可避免地发生的个人错误具有鲁棒性。当我回顾我的50种左右的科学出版物,我会很难找到任何这依然如此完美无瑕的每一个细节@fcoppens似乎坚持要求。然而,我同样很难找到任何地方的科学假设是完全错误的。也许不完整;当然,与该领域的后续发展无关。但在当时的科学知识状况下,这不是“错误”。
第三,该论点忽略了犯第二类错误的代价。II型错误可能会关闭有希望的科学探究的所有领域。如果要遵循@fcoppens的建议,则II型错误率将急剧上升,从而损害科学事业。
最后,该建议在实践中不可能遵循。如果我分析一组公开可用的数据,则可能无法知道是否有人使用过该数据或出于什么目的。我没有办法纠正其他人的假设检验。而且正如我上面所说的,我不必这样做。
每当您“夸大I型错误”时,都必须进行“多次测试”校正:例如,如果您执行两次测试,每个测试的置信度为,那么对于第一个测试,我们测试零H (1 ) 0反对替代H (1 ) 1和第二个假设H (2 ) 0对H (2 ) 1。
然后我们知道,例如第一个假设的类型I错误是错误拒绝的概率,它是α = 5 %。
如果执行两个测试,那么,这两个中的至少一个被错误拒绝的概率等于两者都接受了1个减去概率所以,其中,α = 5 %等于到9.75 %,因此具有至少一个错误拒绝的第一类错误几乎加倍!
在统计假设检验中,只有通过拒绝原假设才能找到替代假设的统计证据,拒绝原假设可以使我们得出结论,即有证据支持替代假设。(另请参见如果我们无法拒绝原假设,会发生什么?)。
因此,对虚数的错误拒绝会给我们提供错误的证据,因此对“科学真理”的错误信念。这就是为什么必须避免这种I型膨胀(I型误差几乎翻倍)的原因。较高的I类错误意味着更多错误的信念,即某种东西是科学证明的。因此,人们在家庭层面上“控制”了Ierror类型。
出于相同的原因,如果多个团队(在相同数据上)执行这些测试,则同样成立。
显然,只有当我们的团队使用相同的数据时,上述发现才成立。当他们处理不同的样本时,有什么不同?
因此,如果我们使用相同的数据,则测试的结论可能基于以“不好的机会”得出的样本。对于另一个示例,上下文是不同的。