研究人员1运行1000个回归,研究人员2仅运行1,两者都得到相同的结果-他们应该做出不同的推论吗?


12

想象一个研究人员正在探索一个数据集并运行1000个不同的回归,他发现其中一个有趣的关系。

现在想象一下,具有相同数据的另一位研究人员 仅进行了1次回归,结果发现另一位研究人员进行了1000次回归才能找到相同的结果。研究者2不认识研究者1。

研究人员1是否应做出与研究人员2不同的推论?为什么?例如,研究人员1应该执行多重比较校正,而研究人员2不应该执行多重比较校正吗?

如果研究人员2首先向您显示了他的单一回归,您将做出什么推论?如果该研究人员1向您显示了他的结果之后,您是否应该更改自己的推断?如果是这样,那为什么重要呢?

PS 1:如果谈论假设研究者使问题变得抽象,请考虑一下:假设使用最佳方法对论文进行了一次回归。然后,另一位研究人员使用相同的数据探索了1000种不同的回归,直到发现与您运行完全相同的回归。你们两个应该推论吗?两种情况的证据是否相同?如果您知道其他研究人员的结果,是否应该更改自己的推论?公众应如何评估两项研究的证据?

PS 2:请尽量具体,并在可能的情况下提供数学/理论上的依据!


1
为了进行有效的比较,您需要指定所有零假设和替代假设。研究人员2只能测试1个假设,而研究人员1可能希望控制您在1000中没有发生1类1错误的可能性。如果这是您要进行的同时推断,则必须进行p值调整。研究人员2有一项测试,无需进行调整。对于研究人员1,您是将不同的模型拟合到相同的数据,还是将一个模型拟合到1000个数据集中的每一个?
Michael R. Chernick

1
@MichaelChernick只有一个数据集。研究人员1为同一数据集拟合了1000个模型,直到找到喜欢的模型为止。研究人员2仅拟合1。两个研究人员使用相同的数据。因此,您会说这两位研究人员必须使用完全相同的数据集来得出不同的结论吗?研究人员2应该正确地相信自己的分析,而研究人员1应该由于多次比较而增加其p值/置信区间?
statslearner

如果您遵循我的观点,那么他们的意思是只有研究人员2在测试一个假设,而研究人员1在测试1000个假设,并且需要控制他所测试的所有假设。这涉及两个不同的问题。仍然含糊的是您“仅找到一种有趣的关系”的意思。也许您认为您提出了一个自相矛盾的情况。我不认为你有。
Michael R. Chernick

1
@MichaelChernick对于完全相同的数据和完全相同的模型,这不是一个悖论如何导致两个不同的结论吗?如果您阅读两篇独立的论文,您将得出什么结论?
statslearner

1
@MichaelChernick我做到了,但令您感到困扰的是您认为这是正确的---数据完全相同,模型相同,得出两个不同的结论。看到我对答案的评论。
statslearner

Answers:


3

这是我对您的问题的“贝叶斯”倾向。我认为您已经描述了一种情况,即在给定相同数据集的情况下,具有不同先验信息的两个人应获得不同的答案/结论。更为直率/极端的示例是假设我们有一个“研究人员1b”,他恰巧从任何假设中猜测回归模型的参数和结论。运行回归是不是概念过于远离猜测。1000

我认为正在发生什么...我们可以从上述问题中学到哪些信息研究人员?-研究者1的模型可能具有平坦先验 -研究者2的感兴趣模型具有先验先验(假定为它们都适合的模型)P(Mk|I1)=11000P(M1|I2)=1M1

这显然是一种简化,但是您可以在这里看到,我们已经在没有任何数据的情况下更加重视了研究人员2的推论。但是您会发现,一旦他们都考虑到数据,研究人员1的后验概率就会增加...(...我们知道这是因为它“更好” “,而不是其他型号...)。研究人员2的后方不再专心,它已经等于。我们不知道相对于其他方案,支持多少数据。我们还不知道的是,不同的模型如何改变研究人员1的实质性结论。例如,假设所有M1P(M1|DI)>>P(M1|I)9991M11000模型包含一个公共术语,并且该变量的所有回归参数都显着大于(例如,所有模型的)。这样就可以得出明显的积极效果,即使许多模型都适用。10000pvalue<108

您也没有说数据集有多大,这很重要!如果您要说的是一个包含观测值和协变量/预测变量/自变量的数据集,那么研究人员1可能仍然对模型不确定。但是,如果研究人员1使用观测值,则可以最终确定模型。10 2 000 000100102,000,000

两个人从不同的信息开始并在看到相同的数据后继续得出不同的结论,从根本上来说并没有错。但是...如果它们的“模型空间”重叠并且数据支持此“重叠区域”,则看到相同的数据会使它们更加靠近。


因此,您主张的基本部分是,他们应该做出不同的推断,因为他们具有不同的先验,而不是因为他们“探索了数据”多少正确吗?
statslearner

顺便问一下,将如何评估证据?您会关心研究人员1装配了多少个模型吗?如果是这样,为什么?
statslearner

我不一定在乎适合的模型数量,但可以肯定地知道所使用的模型。正如我简要提到的那样,我想知道是否有合理的选择。例如,如果研究人员1对要删除/添加的变量做出“线球”决策,我希望看到提到的内容。
概率

1
您为什么要看到提到的内容,这会以某种方式改变您的先前记录?您之前是否使用他作为代理?我不清楚您正在绘制的映射。为什么特定研究人员的原因对您的推断很重要,因为它根本不影响数据生成过程?
statslearner

1
我们认为此处的数据集在研究人员的外部,他没有收集数据,并且两位研究人员使用相同的数据。看来原因的调查结果不能在心理学被复制是因为他们只是用宽松的意义阈值作为证据标准来判断几个疯狂的假设,任何理智的人/科学家会发现他们的先验可笑。以我们的情况为例,如果在我们的示例中检验的假设是某种荒谬的,如此强大的构成,那么我们进行1或1000回归是否重要?
statslearner

7

统计解释远不及您所要求的数学处理清楚。

数学是关于明确定义的问题。例如,滚动一个完美的骰子,或从中取出球。

统计学是应用数学,其中数学提供了准则,但不是(精确的)解决方案。

在这种情况下,显然环境起着重要作用。如果我们进行回归,然后计算(数学)一些p值来表示强度,那么p值的解释(统计量)和值是多少?

  • 在研究人员1执行1000次回归的情况下,结果要弱得多,因为这种情况是在我们没有真正的线索而只是在探索数据时发生的。p值仅表示可能存在某种情况。

    因此,在研究人员1进行的回归中,p值显然不值钱。并且,如果研究人员1或使用研究人员1的结果的某人想对回归进行某些处理,则需要对p值进行校正。(并且,如果您认为研究人员1和研究人员2之间的差异还不够,请考虑研究人员1可以为多次比较校正p值的多种方法)

  • 在研究人员2执行单次回归的情况下,结果是更有力的证据。但这是因为回归并不独立。我们必须包括的原因为何研究员2只干了一个单一的回归。这可能是因为他有充分的(其他)理由已经相信单一回归是数据的良好模型。

  • 研究人员1和2进行的回归设置有很大不同,对于同一问题,您同时遇到这两种情况并不常见。如果是这种情况,

    • 研究员2非常幸运

      这种情况并不少见,我们在解释文学作品时应对此进行更正,同时也应改善研究总体图的出版。如果有像研究人员2这样的一千名研究人员,而我们只会看到其中一个发表了成功,那么因为我们没有看到其他999名研究人员的失败,我们可能会错误地认为我们没有像研究人员1这样的案例。

    • 研究人员1并不是那么聪明,他做了一些令人难以置信的多余搜索来寻找某种回归,而他可能从一开始就知道应该是那个单一的,他本可以进行更强大的测试。

      对于比研究者1更聪明的局外人(从一开始就不关心额外的999回归)并阅读有关工作的信息,他们可能会更加重视结果的重要性,但仍不如他对研究结果的坚强。研究人员的结果2。

      尽管研究人员1在校正999个多余的附加回归时可能过于保守,但我们不能忽略这样的事实,即研究是在知识的真空中完成的,而且找到类型1的幸运研究人员的可能性要大于类型1 2。

一个有趣的相关故事:在天文学中,当他们计划更好的仪器以更高的精度测量宇宙背景时,有研究人员争辩说只释放一半的数据。这是因为只有一个镜头可以收集数据。一旦数十位不同的研究人员完成了所有回归(由于理论家的惊人变化和创造力,数据中的每一个可能的,随机的,颠簸的肯定都可以拟合),就不可能执行验证新实验(也就是说,除非您能够生成一个全新的Universe)。


1
就像我在评论中说的,@ MartijnWeterings +1了,这个问题在数学上不是很恰当。我给人的印象是,OP认为存在悖论,因为这会导致两个研究人员选择相同的模型,但是由于需要多重比较,因此进行1000回归的人会受到惩罚。我根本不认为这是一个悖论(虽然不清楚,但我认为OP确实如此)。您给出了一个非常漂亮且正确的答案,该答案还直观地说明了两种情况为何不同的原因。我认为OP应该给您的答案一个检查!
Michael R. Chernick

@MichaelChernick您的评论本来可以解决案例/问题,但我发现以强烈的“统计数学”风格陈述答案非常有用。摆脱必要的“数学/理论依据”,并认识到统计术语和问题比数学问题更模糊地定义,这使得问题中的歧义更加清晰。
Sextus Empiricus

1
另外,我知道这是很普遍的做法,但是当它们是完全相同的模型和相同数据生成过程中的数据时,您难道难道说一个结果比另一个结果“证据更强”吗?唯一不同的是第三方查看了多少数据,这与DGP本身或您之前对问题的看法没有任何关系。例如,研究人员2的分析是否应该被研究人员1的无知所污染?
statslearner

1
@MartijnWeterings为什么研究人员的意图对数据的解释很重要?如果您将其用作试探法,或者作为外行解释专家结果,那很好。但是对于分析数据的科学家来说,研究人员的意图似乎与您对证据的解释无关。
statslearner

1
因此,似乎您是在使用研究者的行为作为先前行为的代理。如果研究人员进行了1000次回归,那将对应于该特定假设之前的低点。如果他只跑了1,这将对应于该假设的较高先验。如果您有两种情况,则在使用之前不知道哪种情况。
statslearner

1

简短的故事:我们没有足够的信息来回答您的问题,因为我们对所使用的方法或收集的数据一无所知。

长答案...这里的真正问题是每个研究人员是否在做:

  • 严谨的科学
  • 严格的伪科学
  • 数据探索
  • 数据挖泥或p-hacking

他们的方法将决定其结果解释的强度。这是因为某些方法不如其他方法可靠。

在严格的科学中,我们会提出一个假设,识别混杂变量,为假设之外的变量开发控件,计划测试方法,计划我们的分析方法,执行测试/收集数据,然后分析数据。(请注意,分析方法是在测试发生之前计划的)。这是最严格的,因为我们必须接受与假设不一致的数据和分析。事后改变方法以获得有趣的东西是不可接受的。研究结果中的任何新假设都必须再次经历相同的过程。

在伪科学中,我们经常采用已经收集的数据。从道德上讲,这更难使用,因为更容易在结果中添加偏见。但是,仍然有可能遵循道德分析师的科学方法。但是,可能难以设置适当的控件,需要对此进行研究和注意。

数据探索不是基于科学。没有具体的假设。没有对混杂因素的先验评估。同样,很难返回并使用相同的数据重新进行分析,因为结果可能会被先验知识或建模所污染,并且没有新的数据可用于验证。建议进行严格的科学实验,以澄清探索性分析中可能存在的关系。

数据挖掘或P-hacking是“分析师”执行多个测试的方法,希望获得意外或未知的答案,或操纵数据以获得结果。结果可能是简单的巧合,可能是混淆变量的结果,或者可能没有有意义的效果大小或功效。

每个问题都有一些补救措施,但是必须仔细评估这些补救措施。


1
我相信您正在给这个问题添加不必要的噪音。假设他们使用了最好的方法。数据不是由他们收集的,而是由统计机构收集的,因此他们无法控制数据收集。唯一的区别是每个研究人员对数据的探索程度。其中一个探索了很多,另一个仅探索了一次。两者都使用相同的数据获得相同的最终模型。他们应该做出不同的推断吗?那应该如何影响您的推论?
statslearner

这不是多余的噪音。数学是数学。如果模型相同,则它们相同。您如何解释模型取决于问题中未包含的所有其他变量。如果您忽略了所有其他上下文并进行了设计或实验,则答案很简单,这两个模型在数学上均表现相同,并且在科学上都较弱。
亚当·桑普森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.