如何严格证明选择的假阳性/假阴性错误率和潜在成本比率?


12

语境

一组社会科学家和统计学家(Benjamin等人,2017年)最近建议,用作确定“统计意义”的阈值的典型假阳性率( = .05)需要调整为更保守的阈值( = .005)。一群竞争激烈的社会科学家和统计学家(Lakens等,2018)做出了回应,反对使用这个-或任何其他-任意选择的阈值。以下是Lakens等人的报价。(第16页)有助于举例说明我的问题的主题:ααα

理想情况下,通过使用决策理论将成本和收益与效用函数进行比较来确定Alpha级别。与从难以获得的样本中收集数据相比,这种成本效益分析(因此也就是alpha水平)在分析现有的大型数据集时有所不同。科学是多种多样的,这取决于科学家来证明他们决定使用的Alpha水平。...研究应遵循严格的科学原理,而不是启发法和任意的门槛。

我想知道如何才能像Lakens等人那样以“受严格科学原理指导”的方式证明所选alpha的合理性。建议,在大多数社会科学背景下(即在某些情况下,人们需要更具体的素质(例如利润)来优化)?

随着Lakens等人的传播,我开始看到在线计算器在流通,以帮助研究人员做出这一决定。研究人员在使用它们时,需要指定假阳性和假阴性错误的“成本比”。然而,由于这个计算器在这里建议,确定这样的成本比可能涉及大量的定量猜测工作:

尽管有些错误成本很容易用货币来量化(直接成本),而其他错误成本却很难将零头的金额(间接成本)量化。...尽管难以量化,但您仍应努力给他们加一个数字。

例如,尽管Lakens等。建议研究难以达到的样本,作为在证明α时可能要考虑的一个因素,似乎人们仍在猜测该样本难以达到的程度,从而如何相应地调整alpha的选择。再举一个例子,对我而言,要量化发表假阳性的成本似乎是困难的,要看别人随后会投入多少时间/金钱来进行基于错误推论的研究。

如果确定此成本比率在很大程度上是主观猜测的问题,那么我想知道这些决定是否能够(再次,除了优化诸如利润之类的)“合理化”。就是说,以某种方式存在于关于采样,权衡,影响等的假设之外?以这种方式,在我看来,确定假阳性/假阴性错误的成本比似乎类似于选择贝叶斯推断中的先验-这个决定可能是主观的,会影响结果,因此引起争议- -尽管我不确定这是否是合理的比较。

摘要

为了使我的询问具体:

  1. 在大多数社会科学背景下,假阳性率/假阴性率及其成本比率是否能被“严格”证明是正确的?
  2. 如果是这样,可以遵循哪些通用原则来证明这些分析选择是合理的(可能是其中一个或两个示例在起作用)
  3. 如果不是,我在选择成本比时的潜在主观性(类似于贝叶斯优先选择)是否合理?

参考文献

本杰明(DJ),伯杰(J. 重新定义统计意义。取自psyarxiv.com/mky9j

Lakens,D.,Adolfi,FG,Albers,CJ,Anvari,F.,Apps,MA,... Zwaan,RA(2018年1月15日)。证明你的阿尔法。取自psyarxiv.com/9s3y6


4
您可以定义使用“客观上合理的”的方式吗?类型I的错误概率是研究人员的偏爱,就像先验类型II的错误概率一样。研究人员将以哪种方式“客观地证明”偏爱的研究议程,偏爱的研究合作者或资助者,偏爱的研究助手培训和指导方法?
亚历克西斯

1
客观地证明其不仅仅出于偏好。Lakens等人的论文目前正以简写“ JYA”(Justify Your Alpha)的标题传播,根据以上引述,我对他们的论点的理解是,没有任何旧的偏爱会这样做。需要明确的是:我并不一定要提出一个人可以客观地证明所选择的I / II类型错误率的论点。相反,我的询问是基于对Lakens等人的解释。建议您这样做,如果是这种情况,那么我不知道该怎么做。
jsakaluk '18

3
我从Lakens等人的引文中看不到“客观地”一词。他们真的在论文中使用它吗?如果是这样,也许您可​​以添加另一个报价以提供一些更具体的上下文?如果不是,那么我不确定您会说些什么,例如“按照Lakens等人的建议客观地证明所选择的alpha”。
变形虫说恢复莫妮卡

2
我更新了帖子,现在删除了“客观性”。我的意图不是要对论据进行误解,但是我可以理解读者是否认为我写得很粗心。Lakens等。确实使用“遵循科学严谨原则指导”的描述符,所以我的问题现在更可靠。但是,我仍然想知道这意味着什么。似乎比猜测法更严格的猜测是必要的吗?如果能有所作为,我特别好奇科学现实主义者将如何达到alpha的“科学严格”辩护标准。
jsakaluk

2
再说一次,这不是我的用语,我的问题的一部分旨在获得可以帮助我理解该用语可能意味着什么的答案(我要求提供示例性的概括性原则),以限制湖人等人的理解为限。均值(即不是启发式;不是任意阈值)。如果您牢记“科学严谨的理由”的多个定义,它们可能会产生不同的,并且满足非启发式/非任意约束,我欢迎阅读它们。α
jsakaluk

Answers:


1

(也发布在Twitter上,但在此处重新发布)我的回答:我不认为辩解可以是“纯粹的”客观目标,但可以基于在合理/经验基础上可辩驳的标准。我认为RSS是您可以针对某些类型的研究证明p <.005的一种方法的示例,但是我还认为,在其他情况下,根据以下情况,不同的alpha可能比<.005(更高或更低)更理想。什么alpha是可行的,研究的目的是什么。因此,举例来说,如果您有5,000名参与者,并且感兴趣的最小效果尺寸为.10,则您可能希望使用p <.001并具有90%的功效(数字全部组成)。相比而言,您进行了一个小实验作为研究线的最初“概念验证”。您可能拥有N = 100,p <.10、90%功效,


1

我最近一直在思考相同的问题,我猜想心理学上还有许多其他问题。

首先,您的每个问题都与选择是客观选择还是主观选择有关,但是(如此处其他人所指出的那样),您还没有完全解释什么(构成您认为)是客观选择还是主观选择。

您可能会对Gelman&Hennig 2015年的论文感兴趣,该论文揭示了科学中“客观”和“主观”标签的常见用法所包含的各种价值观。在表述中,“客观”涉及透明度,共识性,公正性和与可观察到的现实的对应的价值,而“主观”涉及多种观点和上下文相关的价值。

与您的问题3有关,在贝叶斯视图中,概率定义为量化关于世界的不确定性。据我了解,“主观贝叶斯”(概率反映了个人的信念状态)和“客观贝叶斯”思想流派(概率反映了共识的合理性)之间存在着明显的张力。在客观主义学派中,以透明的方式更加强调先验分布的合理性(以及更普遍的模型),这与共识相符并且可以检查,但是模型的选择当然取决于上下文(即,取决于对特定问题的共识知识的状态)。

在常客主义的概念中,概率反映了在无限次独立复制下事件发生的次数。在Neyman-Pearson框架内,人们规定了一种精确的替代假设和精确的alpha值,并根据数据接受了精确的null或精确的替代(人口效应与规定的精确相等),然后报告这样做的长期频率有误。

在这个框架内,我们很少能精确估计出人口影响的大小,而是有一系列合理的值。因此,在给定的alpha值的条件下,我们没有2型错误率的精确估计,而是一系列合理的2型错误率。同样,我同意您的一般观点,即我们通常对类型1错误或类型2错误的实际成本和收益没有确切的了解。这意味着我们经常面临这样一种情况,即我们对于假设应该首先摆在什么位置的信息非常不完整,而关于接受或拒绝该假设的相对成本和收益的信息甚至更少。

对您的问题:

  1. 在大多数社会科学背景下,假阳性率/假阴性率及其成本比率是否能够客观地被证明是正确的?

我这样认为,理由可以是透明的,可以与共识相称,可以是公正的,并且可以与现实相对应(在某种程度上,我们使用的是关于成本和收益的现有最佳信息)。

但是,我认为这种辩解也是主观的,因为对于如何为给定问题设置alpha可能有多种有效的观点,并且构成适当alpha的内容可能会有意义地取决于上下文。

例如,近年来,很明显,文献中的许多影响反映了M型或S型错误。在复制研究能够为零效应完全无效的证据方面,它们也可能反映出1型错误。

与这一观察结果相关的是,一个新出现的共识是,确定性声明的p值阈值应保持相同或更加严格(即,没有人要求将alpha全面提高到.10或.20)。 。类似地,已经出现了一个共识,即不应将p值用作发布的标准(例如,注册报告格式)。

对我来说,这反映了一种“客观”的信息来源-即,根据我的阅读,越来越多的共识是,虚假声明对该领域造成的损失很大(即使我们不能为这些费用花很多钱)。就我的阅读而言,目前还没有明确的共识,即不满足p值阈值是该领域的巨大代价。如果存在成本,如果不满足p值阈值不会影响估计值是否将其纳入已发表的论文中,则可以减轻成本。

  1. 如果是这样,可以遵循哪些通用原则来证明这些分析选择是合理的(可能是其中一个或两个示例在起作用)

我不确定,但是我会倾向于某种原则,即应该在透明的(本地或全球)共识判断的基础上做出决策,这些判断是针对特定环境中不同类型分析选择的成本和收益的,即使在特定情况下也是如此。面对有关这些成本和收益可能是什么的可怕的不完整信息。

  1. 如果不是,我在选择成本比时的潜在主观性(类似于贝叶斯优先选择)是否合理?

是的,在频率论者和贝叶斯主义的传统中,统计模型的许多不同方面都有主观性(即多种观点和上下文相关性)以及客观性(即透明性,共识性,公正性和与可观察到的现实的对应关系)的空间。以及该模型的使用方式(选定的先验,选定的可能性,选定的决策阈值等)。


这是一个很好的答案。我不太确定的一项是对应要求。如果我们以相同的方式理解这个术语(我在考虑真理的对应理论),那么实际上,如果我们对Type的成本没有一个确切的了解,听起来好像对应就处于不稳定的状态I / II错误。取而代之的是,听起来似乎有一个更好的主张一致性(鉴于这些初始假设,其余数字“有意义”)或实用主义(我们对I / II型错误成本的猜测对于研究计划而言是有用的虚构)。
jsakaluk

也许我正在努力将“合理性”与对应/现实主义观点相抗衡,以其他理解方式,可以以“合理”的方式选择I / II类型错误率?
jsakaluk

感谢您指出这些想法。我想说的是,在任何给定的背景下,我们都可能掌握有关将来可能产生的成本和收益的良好信息,或者我们的信息可能非常差。在非常粗略的意义上,越来越多的共识是,误报(p <阈值,真实影响恰好为零)对实地的危害比未达到显着性阈值的情况(但仍然发布估算值)更为严重。在特定的本地情况下,可能会因未达到显着性阈值而产生更严重的损失。
酵母

切线地,“ alpha”和“ 2型错误”的概念仅存在于NP框架中,在该框架中,分析人员指定了两个精确的假设,并承诺在过程结束时接受一个或另一个。但是,在通常的实践中,经常警告分析人员不要基于不确定的具有不确定功效的估计来接受零值,从本质上讲,这是费舍尔式的解释,其中不接受零值且没有“ 2类错误”。
酵母

1
让我感到有趣的是,您对“共识”的描述背后的社交网络,社交阶层和社交互动与所有这些背后的主观信念和价值观有所不同。
亚历克西斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.