可选的停止规则不在教科书中


16

停止规则会影响P值与决策相关的错误率之间的关系。Simmons等人的最新论文。2011年创造了一个术语“ 研究人员自由度”来描述一系列行为,他们认为这些行为是造成心理学文献中许多报告不可重复的报告的原因。

在这些行为中,我当前感兴趣的是可选的停止规则或未声明的临时分析。我向学生描述了它们对错误率的影响,但似乎在我的学生所使用的教科书中没有描述(或不描述)采用!)。在我大学的主书店中,有十四本针对生物科学,商业,工程等各个学科的入门级学生的统计教科书。这些教科书中只有一本包含索引项“顺序测试”,而没有一个索引项“停止规则”。

是否有入门级的统计教科书来说明可选的停止规则的问题?

西蒙斯(JP),尼尔森(LD)和西蒙索恩(U)(2011)。错误正面心理学:数据收集和分析中未公开的灵活性允许提出任何有意义的内容。心理科学,22(11),1359–1366。doi:10.1177 / 0956797611417632


1
如果放弃频繁的统计数据并采用IT或贝叶斯方法,问题是否会消失?(或者甚至是纯粹的机器学习,这取决于数据集的大小)这不是轻率的-Fisher和NP的不兼容混搭只会导致问题,即使“正确”完成也不会造成问题。将来将不再有常客。
2013年

1
是的,如果不使用符合频率原理的方法,问题将消失。但是,这样的未来可能不会在这个世界上出现。它是什么?
Michael Lew-恢复莫妮卡

2
@Michael:毫无疑问,它(即IT)代表“信息理论”。
红衣主教

在一个相关的话题:errorstatistics.com/2013/04/06/...
神父。

2
@thedude使用不同的理论框架引入了其他问题。这里的问题是,你们都将数学视为不仅仅是对世界的描述。频繁统计数据是描述世界的一种非常有用的方法,贝叶斯统计方法是另一种。两者都不会为您提供真理的预言
Indolering

Answers:


2

如果没有对分布和效果大小的某些了解,就不可能有制止规则。

同样,是的,我们需要关注效果大小-仅考虑p值从来没有被认为是正确的,并且我们当然不应该显示显示p值或F值而不是效果大小的表格或图表。

传统的统计假设推理测试存在一些问题(科恩说这是首字母缩写,如果费舍尔和皮尔森看到今天以他们的强烈反对的名字所做的所有事情,他们都会在坟墓中翻身)。

要确定N,您需要已经确定了目标显着性和功率阈值,并且对分布进行了许多假设,特别是,您还需要确定要建立的效应大小。Indolering认为这应该作为起点是正确的-最小的效果尺寸将具有成本效益!

“新统计”提倡显示效果大小(在适当情况下为配对差异),以及相关的标准偏差或方差(因为我们需要了解分布)以及标准偏差或置信区间(但后者已经存在)锁定p值,并决定是否要预测方向或单向投注)。但是,通过科学的预测来设置指定符号的最小作用可以使这一点变得很清楚-尽管科学前的默认设置是进行反复试验并仅寻找差异。但是如果您采用这种方式,那么您再次对正常性做出了假设。

另一种方法是将箱线图用作非参数方法,但有关晶须和异常值的约定相差很大,甚至它们本身也起源于分布假设。

停止问题确实不是单个研究人员设置或不设置N的问题,而是我们有成千上万的研究人员组成的整个社区,其中1000个远远超过传统0.05水平的1 / alpha。目前建议的答案是提供汇总统计信息(平均值,stddev,stderr-或相应的“非参数版本-中位数等,如带箱线图),以便进行箱分析”,并提供所有实验的合并结果(无论是否发生)是否达到特定的Alpha水平。

与多重测试问题密切相关的是,多重测试问题同样充满困难,并且以保持能力的名义使实验过于简单化,而提出了过于复杂的方法来分析结果。

我认为目前还没有专门的章节来解决这个问题,因为我们仍然不知道我们在做什么...

目前,最好的方法可能是继续使用最适合该问题的传统统计信息,并显示汇总统计信息-效果和标准误差,而N是最重要的。置信区间的使用基本上等效于相应的T检验,但可以更有意义地将新结果与已发表结果进行比较,并允许鼓励重复性的精神风俗,并发布已复制的实验和荟萃分析。

就信息理论或贝叶斯方法而言,它们使用不同的工具并做出不同的假设,但仍然没有全部答案,最终面临相同的问题,甚至更糟糕的问题,因为贝叶斯推理从做出确定性推后回答并只是提供相对假定的或不存在的先验证据。

最后,机器学习还需要考虑其结果的重要性-通常使用CI或T-Test,经常使用图形,希望配对而不是仅仅进行比较,并且在分布不匹配时使用经过适当补偿的版本。它也有关于自举和交叉验证以及偏差和方差的争议。最糟糕的是,仅通过对众多工具箱之一中的所有算法进行彻底参数化,就可以生成和测试无数替代模型,这些工具箱应用于经过深思熟虑地存档的数据集,可以进行无限制的多次测试。更糟糕的是,仍在使用准确度或更差的F值进行评估的黑暗时代,而不是机会正确的方法。

我已经阅读了数十篇有关这些问题的论文,但没有找到任何完全令人信服的内容-除了负面调查或荟萃分析论文,这些论文似乎表明大多数研究人员并未正确处理和解释有关“标准”的统计数据”(旧的或新的)。功效,多次测试,调整大小和提前停止,对标准误差和置信区间的解释……这些只是其中的一些问题。

请击落我-我想证明自己错了!在我看来,有大量的沐浴水,但是我们还没有找到婴儿!在这个阶段,没有一种极端的观点或名牌方法可以解决这个问题,那些想扔掉其他一切的人可能已经失去了孩子。


这不是要打倒你的问题,我认为不可能有解决这些问题的方法。我们是人类认识世界上的模式,我们必须以收敛的有效性来解决。笛卡尔在尝试证明神的糟糕尝试之后,一路狂飙到趋同的有效性。有时它在那里,有时它不是,但是我们大多只是遇到了我们无限小的认知计算能力。
Indolering

1

我不认为可选的“停止规则”是关于最佳停止的技术术语。但是,我怀疑您会在入门级心理学统计教科书中找到有关该主题的深入讨论。

愤世嫉俗的理由是,所有社会科学专业的学生数学技能都很薄弱。更好的答案,恕我直言,简单的t检验不适用于大多数社会科学实验。必须查看效果强度,并找出是否可以解决组之间的差异。前者可以表明后者是可能的,但仅此而已。

福利支出,国家法规和城市化程度与宗教行为的措施在统计上都有显着关系。但是,仅陈述p值就可以使检验成全有或全无因果关系。请参阅以下内容:

在此处输入图片说明

从两个结果福利支出城市化进程的差异有统计学显著的p值,但福利支出更密切相关。这福利开支节目到的宗教(其它措施,例如一个牢固的关系非宗教的速度以及在宗教舒适)针对城市化甚至没有达到的p值< .10,这表明城市化不影响一般的宗教信仰。但是请注意,即使福利支出也不能解释爱尔兰或菲律宾,这表明其他一些影响要比福利支出要强。

依靠“停止规则”会导致误报,尤其是在心理学的样本量较小的情况下。这些统计学上的诡计确实使心理学作为一个领域受到了阻碍。但是,将所有信念置于任意p值上也是很愚蠢的。即使我们都在进行实验之前发送我们的样本量和假设语句到日记,我们仍然会遇到误报学术界共同曳统计学显着性。

正确的事情不是停止数据挖掘,而正确的事情是描述与结果相关的结果。理论不仅通过其预测的准确性来判断,而且还可以通过这些预测的效用来进行判断。无论研究方法多么出色,将感冒症状改善1%的药物都不值得将其装入胶囊的成本。

更新为了明确起见,我完全同意应将社会科学家的标准提高到更高:我们需要改进教育,为社会科学家提供更好的工具,并将有意义的水平提高到3σ。我试图强调一个不足的观点:绝大多数心理学研究都是毫无价值的,因为影响的规模很小。

但是,借助Amazon Turk,我可以适当地补偿运行10个并行研究并非常便宜地维持> 3 sigma的置信度。但是,如果效果强度较小,则对外部有效性存在重大威胁。操作的效果可能是由于新闻报导,问题的排序或...。

我没有时间写论文,但是社会科学中的质量问题远远超出了糟糕的统计方法。


我了解这里存在一些社会学(通常是非实验性研究)和临床试验的混淆。但是,您的第一句话没有任何意义:停止规则是临床试验研究的一个重要领域。这样做的理由是,依次测试的多个相关假设是预先指定的分析计划的一部分。但是,OP问题中的链接不是数学不好的问题,而是科学不好的问题之一。进行多种统计测试以“得出”正确的分析,并在发现重要意义时停止分析,这是不好的科学,无论您如何削减它。
AdamO'2

@AdamO我同意!当我写这篇文章的时候,我是一个尝试使用数据挖掘方法的大学生,当我去确保自己做的一切正确的时候(当时是这样),我从教授和统计学家那里得到的最初反应都是……天真。具有讽刺意味的是,社会科学实验室的标准操作程序是进行试点研究,直到发现有趣的东西为止。我在做同样的事情,但实际上是在试图弥补:p
Indolering

0

您引用的文章没有提及停止规则,并且似乎与当前问题无关。它们唯一,非常微小的关系就是多次测试统计概念,而不是科学概念。

在临床试验的文献中,您会发现停止规则是严格的,其中包含有关研究将“看起来”的条件的明确信息:基于日历年或人年入学,alpha级别的设置以及还限制了“有效”与“有害”治疗的效果。的确,我们应该将这类研究的严格进行视为科学做得很好的一个例子。FDA甚至会说,在发现了除预先指定的功效以外的重大功效之后,必须进行第二次试验以验证这些发现。这仍然是一个问题,以至于Thomas Flemming建议所有临床研究都需要由完全独立的第二个验证性试验验证,由独立实体进行。考虑到生活和医疗时,假阳性错误的问题非常糟糕。

在看似无害的监督之下,其他科学领域使研究中的不良伦理永存。的确,社会科学不会影响人们所接受的待遇,它们只处理抽象的概念模型,而仅仅是增进我们对理论与观察之间相互作用的理解。但是,任何社会科学的消费者,无论是普通知识还是科学知识,都经常会得出相互矛盾的发现:巧克力对您有益,巧克力对您不利(巧克力对您有益)糖和脂肪巧克力对你不利),性对你有利,婚姻会使你难过/婚姻使你幸福。该领域因科学不佳而被遗忘。甚至我在进行分析时都感到内gui,因为我对强烈的因果关系语言感到不满意,这种语言后来与关于政策和联邦支持的强烈建议捆绑在一起,完全没有道理,但已被发表。

西蒙斯的文章有效地描述了如何披露帮助明确研究人员在社会研究中所做出的“捷径”。Simmons在表1中给出了一个示例,该示例说明了如何以不道德的科学家“寻找发现”的典型方式来显着提高数据误报率。表2中的调查结果摘要描述了文章中经常被省略的方面,这将有助于极大地增进对如何进行一项以上分析的理解。

总而言之,停止规则仅适用于预先指定的假设:这在道德上是合理的,需要统计方法。Simmons的文章承认,很多研究甚至都没有承认这一点,这在伦理上是不合理的,但是统计语言却令人信服,为什么它确实是错误的。


我不明白为什么你会说引用的论文与眼前的问题没有多大关系。它包含一个标题部分,“仔细研究样本大小的灵活性”,这与可选停止有关。再看看
Michael Lew-恢复莫妮卡

@MichaelLew总结了答案:停止规则与临床试验,募集和随访有关,但是测试一个预先设定的假设,对于FDA装置和治疗剂的研究是可接受的做法。Simmons的论文论述了社会医学研究和学术界的研究伦理,准则和p-hacking。您能否更准确地描述您如何看待这种关系?也许您可以编辑您的文章以定义术语并提供其他文献的参考,特别是有关AFAIK在临床试验之外不存在的“停止规则”。
AdamO

我也认为您的描述“其他科学领域已使研究中的不良道德根源永存”是不公平或没有帮助的。我最初提出的问题的重点是,似乎没有任何理由使兼职统计用户甚至会意识到未经声明的临时分析所引起的潜在问题。称无知是不道德的,这是不公平的。
Michael Lew-恢复莫妮卡

@MichaelLew您定义什么是“中期分析”?
AdamO '02

亚当,我认为“停止试验规则在临床试验之外不存在”是不对的。在临床试验之外可能不会经常提及它们(请参阅我的原始问题),但每个实验都存在它们。即使是固定样本量的试验,也有停止规则“继续直至达到样本量”。
Michael Lew-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.