如果没有对分布和效果大小的某些了解,就不可能有制止规则。
同样,是的,我们需要关注效果大小-仅考虑p值从来没有被认为是正确的,并且我们当然不应该显示显示p值或F值而不是效果大小的表格或图表。
传统的统计假设推理测试存在一些问题(科恩说这是首字母缩写,如果费舍尔和皮尔森看到今天以他们的强烈反对的名字所做的所有事情,他们都会在坟墓中翻身)。
要确定N,您需要已经确定了目标显着性和功率阈值,并且对分布进行了许多假设,特别是,您还需要确定要建立的效应大小。Indolering认为这应该作为起点是正确的-最小的效果尺寸将具有成本效益!
“新统计”提倡显示效果大小(在适当情况下为配对差异),以及相关的标准偏差或方差(因为我们需要了解分布)以及标准偏差或置信区间(但后者已经存在)锁定p值,并决定是否要预测方向或单向投注)。但是,通过科学的预测来设置指定符号的最小作用可以使这一点变得很清楚-尽管科学前的默认设置是进行反复试验并仅寻找差异。但是如果您采用这种方式,那么您再次对正常性做出了假设。
另一种方法是将箱线图用作非参数方法,但有关晶须和异常值的约定相差很大,甚至它们本身也起源于分布假设。
停止问题确实不是单个研究人员设置或不设置N的问题,而是我们有成千上万的研究人员组成的整个社区,其中1000个远远超过传统0.05水平的1 / alpha。目前建议的答案是提供汇总统计信息(平均值,stddev,stderr-或相应的“非参数版本-中位数等,如带箱线图),以便进行箱分析”,并提供所有实验的合并结果(无论是否发生)是否达到特定的Alpha水平。
与多重测试问题密切相关的是,多重测试问题同样充满困难,并且以保持能力的名义使实验过于简单化,而提出了过于复杂的方法来分析结果。
我认为目前还没有专门的章节来解决这个问题,因为我们仍然不知道我们在做什么...
目前,最好的方法可能是继续使用最适合该问题的传统统计信息,并显示汇总统计信息-效果和标准误差,而N是最重要的。置信区间的使用基本上等效于相应的T检验,但可以更有意义地将新结果与已发表结果进行比较,并允许鼓励重复性的精神风俗,并发布已复制的实验和荟萃分析。
就信息理论或贝叶斯方法而言,它们使用不同的工具并做出不同的假设,但仍然没有全部答案,最终面临相同的问题,甚至更糟糕的问题,因为贝叶斯推理从做出确定性推后回答并只是提供相对假定的或不存在的先验证据。
最后,机器学习还需要考虑其结果的重要性-通常使用CI或T-Test,经常使用图形,希望配对而不是仅仅进行比较,并且在分布不匹配时使用经过适当补偿的版本。它也有关于自举和交叉验证以及偏差和方差的争议。最糟糕的是,仅通过对众多工具箱之一中的所有算法进行彻底参数化,就可以生成和测试无数替代模型,这些工具箱应用于经过深思熟虑地存档的数据集,可以进行无限制的多次测试。更糟糕的是,仍在使用准确度或更差的F值进行评估的黑暗时代,而不是机会正确的方法。
我已经阅读了数十篇有关这些问题的论文,但没有找到任何完全令人信服的内容-除了负面调查或荟萃分析论文,这些论文似乎表明大多数研究人员并未正确处理和解释有关“标准”的统计数据”(旧的或新的)。功效,多次测试,调整大小和提前停止,对标准误差和置信区间的解释……这些只是其中的一些问题。
请击落我-我想证明自己错了!在我看来,有大量的沐浴水,但是我们还没有找到婴儿!在这个阶段,没有一种极端的观点或名牌方法可以解决这个问题,那些想扔掉其他一切的人可能已经失去了孩子。