Fisher的“获取更多数据”方法何时才有意义?


26

引用龚的好答案

据称,一位研究人员曾经以“不重要”的结果向费舍尔求助,问他应该怎么做,费舍尔说“要获取更多数据”。

从Neyman-Pearson的角度来看,这是公然的 hacking,但是在费雪的go-get-more-data方法中是否存在用例呢?p


10
费舍尔(反复地)强调了重复实验的重要性,我希望这是他在这里的意图(假设对话发生了)。费舍尔当然会很清楚地知道,您无法检查重要性,如果没有得到,就扩大初始样本。
Glen_b-恢复莫妮卡

@Glen_b我以前听过“重复实验”一词,但听不清楚。你能详细说明吗?假设一个样本量为10的实验比一个样本量为100的实验好十次?
nalzok

在探索性研究中,获取更多数据可能是可以接受的。在验证性研究中,没有获取更多数据的条件。
user158565

5
我对统计实践有争议的观点之一是,尽管考虑假阳性问题很重要,但我们不应将1型错误率保持在很高的水平,以至于我们拒绝从数据中学习以保存类型1个错误率。
Cliff AB

Answers:


29

经常性范式是费舍尔和内曼·皮尔森的观点的混合体。只有使用一种方法和另一种解释,问题才会出现。

对于任何人来说,收集更多的数据都是有问题的,这似乎很奇怪,因为更多的数据是更多的证据。的确,问题不在于收集更多数据,而在于使用值来决定这样做,而值也可以用来衡量利益。收集基础上,更多的数据 -值只有如果你计算出一个新-hacking -值。pppp

如果您没有足够的证据对研究问题做出令人满意的结论,那么请务必获取更多数据。但是,请承认您现在已经超出了NHST的研究阶段,而专注于量化感兴趣的影响。


有趣的是,贝叶斯主义者没有遭受这种困境。考虑以下示例:

  • 如果常客没有明显差异,然后转而进行等效性检验,则肯定会增加误报率。
  • 贝叶斯可同时表示最高的密度区间和差值的实际等价区域,并且在晚上睡得一样。

因此,基本上,说我想测试总体A的均值是否等于总体B的均值。最初,我得到了一些数据,对进行了测试:“均值相等”,但我没有拒绝。在这种情况下,我不应对H 0进行另一次测试:“均值不相等”。我所能做的就是估计方法的保密间隔,对吗?如果两个时间间隔之间没有重叠怎么办?H0H0
nalzok

6
“如果您计算新的p值,那只会是p骇客。” 这实际上不是完全取决于用于计算p值的方法吗?忽略顺序分析并决定收集更多数据将导致不正确的p值。但是,如果将决策规则合并以将更多数据收集到p值的计算中,则将产生有效的p值。
jsk

4
@jsk,我认为随后计算出的p值在某种程度上是无效的,更多的是,您使用了任意且非数据驱动的标准来判断您的实验何时“正确”并且对该项目的研究是“完成”。决定所有非显著p值是错误的,并收集数据,直到你得到一个显著,然后停止,因为你已经得到了“正确”的结果是实验科学的对立面。
Upper_Case-Stop Harming莫妮卡

1
@Upper_Case我在有关P-hacking的一小部分文章中发表了评论,这就是为什么我在引号中包含该部分。您在我的声明中读得太多了。我的观点是,用于决定收集更多数据的任何决策规则都必须纳入计算p值的过程中。只要您将决策合并到p值的计算中,您仍然可以根据需要执行有效的NHST。这绝不意味着我提倡一条停止规则,即“收集更多数据,直到找到重要结果为止”。
jsk

@jsk啊,我现在更好地理解您的观点了。谢谢你的澄清。
Upper_Case-Stop Harming莫妮卡

10

鉴于一个足够大的样本量,测试将始终显示显著的结果,除非真正的效果大小正好等于零,讨论在这里。实际上,实际效果的大小不是零,因此收集更多的数据最终将能够检测出最小的差异。

费舍尔(IMO)的多面性回答是对一个相对琐碎的问题的回答,该问题在其前提下将“重大差异”与“实际相关差异”混为一谈。

这就相当于一个研究员来到我的办公室,问“我称重为标有'25克'的铅的重量,重量为25.0克。我认为标签不正确,我该怎么办?” 我可以回答:“获得更精确的比例”。

我认为,如果初始测试的功能不足以检测实际相关的差异幅度,那么获取更多数据的方法是合适的。


不过,要点是您需要将要获取更多数据的决策合并到p值的计算中。
jsk

即使更改p值,@ jsk仍然可以收集更多数据以找到重要结果(尽管您需要更多数据)。
破坏者

1
我本来可以清楚一点。我不确定“您仍然可以收集更多数据以找到重要结果”的确切含义。我明白,因为零假设通常永远不会真正成立,收集更多数据最终将导致重大结果。我只是想提请注意以下事实:在计算p值时,您需要将收集更多数据的决策纳入p值的计算中。这意味着决策规则(关于收集更多数据)需要在原始数据收集之前预先指定。
jsk

即使使用非常保守的调整p值的方法(例如Bonferroni校正,适用于事后分析),@ jsk仍然存在足够大的额外样本大小,可以克服校正问题。关键是:如果您为我提供p值调整方法(是否在原始数据收集之前指定),则感兴趣的群体的人口分布之间的真实差异和无关紧要的初步结果;并且我可以为您提供足够大的样本量,从而为您带来显着的结果。因此,更多的数据总是答案。
破坏者

7

谢谢。这里有几件事要牢记:

  1. 报价可能是伪造的。
  2. 去获取更多/更好的数据,或者从其他来源获得数据(更精确的比例,请参阅@Underminer的答案;不同的情况或控件;等等),这是非常合理的,以进行第二次研究(请参阅@Glen_b的评论)。 。也就是说,您不会将其他数据与原始数据一起进行分析:假设您的N = 10,但结果并不显着,您可以收集另一个N = 20的数据并单独分析(而不是一起测试全部30个数据) )。如果报价不是伪造的,那可能就是费舍尔想到的。
  3. 费舍尔的科学哲学本质上是波普尔式的。就是说,空值并不一定会被人断然拒绝以确认您的理论,但理想情况下可以是您自己的理论本身,以至于拒绝意味着您的宠物理论是错误的,您需要回到图纸上。在这种情况下,I型错误膨胀不会使研究人员受益。(另一方面,除非费舍尔是个吵架的人,否则这种解释就不包括费舍尔提出的建议,否则这本来就不会过时。)
  4. 无论如何,值得指出的是,我加入该评论的原因是,它说明了这两种方法本质上的区别的一些根本意义。

1
p

顺便说一句,如果您能详细说明“两种方法本质上的差异”,那将是很棒的。Fisher的方法听起来更...主观,因为我觉得他并不真正在意错误率,但我可能会遗漏一些东西。
nalzok

1
@nalzok,区别在于原始线程中:Neyman-Pearson方法假定研究是一个离散事件,您可以完成并退出;费舍尔的方法假设该问题正在继续调查中。回复:#2,如果您单独分析数据,那不是p-hacking(除非您运行多个研究并且仅发布表明您想要的研究)。回复:#3,不,不接受null,您需要不断寻找更好的方法来检验您的理论。
gung-恢复莫妮卡

1
pp

1
(+1)有时候我认为我们专注于树木而错过了森林。坦率地说,当我们遇到难题时,通常,数据总比数据好。在大多数情况下,更多数据并不能改善很多。正如孟(Meng)在2018年发表的有洞见的论文“ 大数据中的统计悖论和悖论(I) ”所暗示的那样, 当我们试图估计未知数量时,获取更好的数据(例如,经过精心选择的样本)比大数据更有利。但是更多数据通常会有所帮助!
usεr11852说恢复单胞菌

6

我们称为P-hacking的方法是多次应用重要性测试,并且仅报告重要性结果。这是好是坏取决于情况。

为了解释,让我们考虑一下贝叶斯术语中的真实效果,而不是原假设和替代假设。只要我们相信感兴趣的影响来自连续分布,那么我们就知道原假设是错误的。但是,对于双面测试,我们不知道它是阳性还是阴性。在这种情况下,我们可以将双面检验的p值视为衡量我们的估计具有正确方向(即正面或负面影响)的证据有多强的度量。

p<α

现在,考虑继续返回以获取更多数据时会发生什么。每次您获取更多数据时,仅在有足够数据的情况下获得方向正确的可能性才会增加。因此,在这种情况下,我们应该意识到,尽管实际上增加了I型错误的可能性,但通过获取更多数据,我们也减少了错误地得出错误方向的可能性。

与此相反,更典型的滥用P-hacking的行为;我们测试了100种效果大小,这些大小很可能很小,并且仅报告显着大小。请注意,在这种情况下,如果所有影响都很小,那么当我们声明重要性时,我们将有接近50%的机会弄错方向。

当然,从此数据加倍运算中得到的p值仍应带有盐分。通常,虽然人们应该收集更多数据来确定效果大小没有问题,但是这可能会以其他方式被滥用。例如,一个聪明的PI可能会意识到,与其立即收集所有100 个数据点,不如节省大量资金通过先收集50个数据点,分析数据然后再收集不重要的下50个数据点来增加功能。在这种情况下,它们增加了在声明重要性的条件下获得错误方向的可能性,因为与50个数据点相比,与100个数据点相比,它们更有可能获得错误的方向。

最后,考虑当结果微不足道时获取更多数据的含义。那将意味着永远不会收集有关该主题的更多信息,这不会真正推动科学的发展吗?一项功能不足的研究会杀死整个领域。


1
(+1)这是一个有趣的观点,但是您能否详细说明Fisher的方法与聪明的PI的方法之间的区别?看起来两者都收集了更多的数据,因为初始测试无关紧要。
nalzok

另外,我不确定您的意思是“尽管实际上我们在增加I型错误的可能性,但我们也在减少错误地得出错误方向的可能性”。这里的零假设是什么?IMO如果您正在进行单面测试,则“得出错误的方向”是“ I型错误”,对于双面测试,您不应得出结论。
nalzok

如果我错了,请纠正我,但是我认为您建议您继续收集更多数据,直到进行双向测试为止,在这种情况下,I型错误率将为100%。
nalzok

1
Fisher提出的建议与聪明/天真的PI之间的主要区别在于,Fisher从正在完成的研究中发出了这一呼吁。他的选择要么收集更多数据,要么决定他永远不会知道效果的方向。另一方面,PI决定在他甚至没有看到数据之前就削弱他的初始研究能力。
Cliff AB

1
@nalzok:确保我会在非工作时间看一下:)
Cliff AB

1

如果替代方案具有较小的先验概率,则无法拒绝零值的实验将进一步降低其价值,从而使进一步的研究更具成本效益。例如,假设先验概率为0.01。那么您的熵是.08位。如果概率降为.001,那么您的熵现在为.01。因此,继续收集数据通常没有成本效益。之所以具有成本效益,是因为知道是如此重要,以至于即使剩下的.01熵也值得减少。

另一个原因是先验概率是否真的很高。如果您的先验概率大于50%,那么不拒绝零值会增加您的熵,使继续收集数据更具成本效益。一个例子是,当您几乎可以肯定会产生影响时,却不知道朝哪个方向。

例如,如果您是一名反情报人员,并且您确定某个部门有痣,并且已将其缩小到两名嫌疑犯,并且正在进行一些统计分析以决定是哪个,那么统计上无关紧要的结果将证明收集是正当的更多数据。


为什么不拒绝null会降低其可能性?尽管没有证据不是没有证据,但我不明白为什么这是反对缺席的证据。
nalzok

@nalzok我写道:“如果替代方案具有较小的先验概率,那么无法拒绝null的实验将进一步降低它”。因此不能减少,也不是“它”的有效先行条件。另外,“进一步”表示“它”是指已经很小的东西。这些事实表明“ it”的先例是替代方案的“先验概率小”。
累积
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.