关于乔治·博克斯(George Box),加利特·斯穆利(Galit Shmueli)和科学方法?


16

(这个问题似乎更适合于哲学SE。我希望统计学家可以澄清我对Box和Shmueli陈述的误解,因此我将其张贴在这里)。

ARIMA名望的George Box说:

“所有模型都是错误的,但有些是有用的。”

Galit Shmueli在她著名的论文“ To Explain or Predict”中指出(并引用了其他同意她的观点):

解释和预测并不相同,尽管某些模型在预测方面做得不好,但有些模型在解释方面做得很好。

我觉得这些与原则有些矛盾。

如果模型预测不好,是否有用?

更重要的是,如果模型能够很好地解释(但不一定能很好地预测),那么它在某种程度上必须是正确的(即没有错)。那么,这与Box的“所有模型都错了”又有什么关系呢?

最后,如果一个模型能够很好地解释但不能很好地预测,那么它如何科学?大多数科学标界标准(验证论,证伪论等)都暗示科学陈述必须具有预测能力,或者口语化:只有经过实证检验(或证伪)的理论或模型才是正确的。必须预测未来的结果。

我的问题:

  • Box的陈述与Shmueli的观点是否确实矛盾,或者我是否缺少某些东西,例如,一种没有预测能力的模型仍然有用吗?
  • 如果Box和Shmueli的陈述矛盾,那么对一个模型错误并不能很好地预测却仍然具有解释力意味着什么?换句话说:如果一个人既丧失了正确性又缺乏预测能力,那么模型还剩下什么?

当模型具有解释力但没有预测力时,可以进行哪些经验验证?Shmueli提到了类似的事情:使用AIC进行解释,使用BIC进行预测,等等,但是我不知道这是如何解决问题的。对于预测模型,您可以使用AIC,BIC或R2L1正则化等,但是最终出于样本测试和生产性能的决定因素决定了模型的质量。但是对于解释得很好的模型,我看不到任何损失函数如何能够真正评估模型。在科学哲学中,存在不确定性的概念对于任何给定的数据集,总可以明智地选择某种分布(或分布的混合)和损失函数L,使其适合数据(因此可以声称可以解释它)。此外,对于有人声称模型足以解释数据的情况,L应当处于的阈值是任意的(类似p值,为什么p<0.05而不是p<0.1p<0.01?)。

  • 基于以上所述,由于不可能进行样本外测试,因此如何客观地验证可以很好地解释但不能很好地预测的模型?


3
就我所记得的Shmueli而言,对她来说,解释正确的方法是正确的函数形式(但在涉及该函数形式的参数时可能会有很大的估计不确定性),而预测好的方法是获得偏差方差的折衷正确(在功能形式上进行折中以提高估计精度)。同样,哲学标签在这里可能很有用。
理查德·哈迪

1
我认为“或”不需要排他。对于具有相同预测值的理论,简单性和统一性是无争议的选择标准,如果是这样,那么在许多情况下牺牲它们的精度可能是合理的。博克斯的座右铭反映了不同的科学观点,例如范·弗拉森(van Fraassen)的《科学形象》(再回到康德)中的先进观点:它是对被观察者进行充分/有用的描述,而不是说出关于不可观察的“现实”的真实故事。足够的粗略性足以满足许多任务,“一个正确的模型”很可能是幼稚的想法。
Conifold

2
@Conifold实际上,Richard Levins对复杂因果系统的循环分析(不是统计方法,尽管它的应用直接与统计预测有关)牺牲了几乎所有精度,以支持模型真实性(变量和它们之间的关系)和普遍性。 (模型上的分析结果适用于共享相同因果结构的所有变量)。参见Levins,R。(1966)。人口生物学的建模策略美国科学家,54(4),421–431。
亚历克西斯(Alexis)

(+1。我仍然希望能有时间在这里发布答案...)
变形虫说Monica Reinstate

Answers:


9

让我从乔治·博克斯(George Box)的精妙引述开始,即“所有模型都是错误的,但有些模型是有用的”。该陈述是对“实证主义”方法论方法的概括,后者是一种在科学领域具有很大影响力的哲学方法。弗里德曼(Friedman,1966)的经典方法论文章中详细描述了这种方法(在经济理论的背景下。弗里德曼在那篇文章中认为,任何有用的科学理论都必然构成对现实的简化,因此,其假设必须始终在某种程度上背离现实,甚至可能背离现实。将世界的复杂性降低为一组可管理的原则,以及将其准确地用于对现实进行预测并生成可检验的关于现实的新假设的准确性。因此,弗里德曼认为,“所有模型都是错误的”,只要它们都包含简化(因而偏离)现实的假设,而“某些模型是有用的”,只要它们给出一个简单的框架即可对现实做出有用的预测。

现在,如果您阅读Box(1976)(他首先指出“所有模型都是错误的”的论文),您会发现他没有引用弗里德曼,也没有提到方法论的实证主义。但是,他对科学方法及其特征的解释与弗里德曼所提出的解释极为接近。特别是,两位作者都强调,科学理论将对现实进行预测,并可以对照观察到的事实进行检验,然后将预测中的错误用作修正该理论的基础。

现在,讨论加利特· 什穆里( Galit Shmueli)在Shmueli(2001)中讨论的二分法。Shmueli在本文中比较了观察到的结果的因果解释和预测,并认为这些是不同的活动。她特别指出,因果关系是基于没有直接在可衡量的结果中表现出来的基础结构,因此“可测量的数据并不是其基础结构的准确表示”(第293页)。因此,她认为统计分析的一个方面涉及对无法观察到的潜在因果关系进行推断,而这些因果关系并未体现在可衡量的反事实差异中。

除非我有误解,否则我认为可以肯定地说,这种想法与Box和Friedman的实证主义观点(如Box的报价所代表的观点)存在张力。实证主义者的观点从本质上说,除了可衡量的结果中所表现出的那些形而上学之外,没有其他可容许的形而上学“结构”。实证主义仅限于考虑可观察的数据以及基于此数据的概念。它不考虑先验形而上学的概念。因此,实证主义者会认为,因果关系的概念只有在根据现实中可衡量的结果来定义的范围内才是有效的-在某种程度上将其定义为与此不同(如Shmueli对待),这将被视为形而上学的推测,在科学论述中将被视为不可接受的。

所以我认为您是对的---这两种方法本质上是冲突的。Box所使用的实证主义方法坚持认为,有效的科学概念完全基于它们在现实中的表现,而Shmueli所使用的替代方法则说,有些“构架”是重要的科学概念(我们要解释),但不能通过将它们与现实中可衡量的结果联系起来,可以完美地表示它们。


究竟!!!Shmueli似乎与科学实证是什么的大多数实证主义者(和证伪主义者)定义相矛盾,我想知道她的意图是否确实是要做出这样大胆的哲学声明?还是她作为统计学家是否不知道自己的言论确实有多大胆?
Skander H.-恢复莫妮卡

在哲学SE上发布了一个相关问题,是否愿意参与其中?
Skander H.-恢复莫妮卡

1
尽管实证主义和实用主义具有反现实主义的特征,但Box的方法却是后者。实证主义至少在1960年代后期以来在科学领域没有影响力。这就是为什么Box没有提到Friedman或其他实证主义者的原因。实用主义不仅限于可观察的数据,对于先验的概念或形而上学的构造也没有问题。它只是不认为它们接近“现实”,因此针对独特的“正确”功能,它们可以是复数的,与任务相关的并且可以修改。因果关系就是这样的构造,因此Box和Shmueli之间没有冲突。
Conifold

在我看来,无论博克斯是否是实用主义者,他在这里所说的具体说法都比实用主义更有利于实证主义。后一种哲学采用形而上学的多元观点,认为形而上学有多种连贯的方式将现实概念化,并且所有这些都是对现实有用的意义上的“真实”。因此,实证主义会说:“所有模型都是错误的,但有些模型是有用的”,而实用主义的格言将更接近“许多模型是正确的,因为它们是有用的”。
恢复莫妮卡

对“真”和“有用”的认同只是人们对实用主义的误解。所有模型都是错误的,因为“正确”表明它们与之相对应,实用主义者否认了这一点。容忍的原则是“模型只要符合目标就正确”,这归功于逻辑实证主义之父卡尔纳普。
Conifold

4

当模型用来解释事物时,是对现实的简化。简化只是“以某种有用的方式出错”的另一个说法。例如,如果我们将数字3.1415926535898舍入为3.14,则会产生错误,但是这种错误使我们可以将精力集中在该数字的最重要部分。这就是使用模型进行解释的方式,它提供了对某些问题的见解,但是必须从许多其他事物中抽象出来:我们人类并不擅长同时观察数千种事物。如果我们主要关心预测,那么我们希望在可能的情况下都包括这数千个内容,但是要进行权衡取舍却有所不同。


1
“但是这个错误使我们人类可以专注于该数字的最重要部分。” 这是有道理的,可以帮助我理解“解释”的含义,但同时也证实了我的观点,即解释更多是一种艺术/美学概念,而不是科学概念。基于你π例如,还应考虑以下因素:一种新颖的降维技术可以绘制非常精美直观的高维数据图,这可以很好地说明问题,但是无法客观地评估该技术的准确性,其价值是纯粹是主观的。
Skander H.-恢复莫妮卡

1
@SkanderH。就“优雅直观的图形”促进工程应用或新理论的发展而言,它们的价值并非纯粹是主观的或非科学的,而是实用的。统一,解释力,简单性和连贯性被普遍认为是认识论的价值观,而不是审美价值观。正是基于这样的考虑,在洛伦兹的以太理论和狭义相对论之间做出选择,它们在预测上是等效的。
Conifold

3

维基百科文章“ 所有模型都是错误的 ”中。牛顿的引力模型就是一个例子。牛顿的模型几乎总是提供与经验观察结果无法区分的预测。但是该模型极其难以置信:因为它假定了可以在任意较大距离上即时作用的力。

牛顿模型已被爱因斯坦广义相对论中给出的模型所取代。就广义相对论而言,重力以有限的速度(光速)在太空中传播。

牛顿模型不是广义相对论模型的简化。为了说明这一点,考虑一个苹果从树上掉下来。根据广义相对论,苹果在没有地球向苹果施加任何力的情况下坠落。(苹果掉下来的主要原因是地球扭曲时间,因此树根附近的时钟比树上较高的时钟运行得更慢。)因此,如Wikipedia文章所述,牛顿模型完全是从解释错误的。透视。

Shmueli [2010]的论文假设模型有两个目的:预测和解释。实际上,几位作者已经指出了三个目的(例如,参见Konishi和Kitagawa [ 信息标准和统计建模,2008:§1.1]和Friendly&Meyer [ 离散数据分析,2016:§11.6])。这三个目的对应于三种逻辑推理:

  • 预测(对应于推论);
  • 参数估计(对应于归纳法);
  • 结构说明(对应于绑架)。

坦率地说,说牛顿的引力模型“什么都不能解释”是荒谬的。-1。
变形虫说恢复莫妮卡

在广义相对论是准确的假设下,牛顿模型,牛顿模型并没有解释有关引力是如何工作的。如果苹果掉落,牛顿的模型假定地球在苹果上施加力,并且该假设完全是错误的。请您进一步考虑我的答案。如果您仍然不明白,请告诉我不清楚的地方。
SolidPhase

What you say is quite clear but I strongly disagree with it.
amoeba says Reinstate Monica

amoeba, I ask you to explain why you disagree: do you have a reason? (Note that I have added an extra sentence to the answer.)
SolidPhase

Thanks. I will look up the references you mention. I understand how a model can predict even if it doesn't explain. What I don't get is the opposite direction: How can a model explain without predicting. You Newton vs. Einstein examples just muddies everything even more: The whole reason Einstein's theory supplanted Newton's was because it predicted better. Look at it another way: If we have competing explanatory models, how can we evaluated them unless we test which one has the most predictive power?
Skander H. - Reinstate Monica

1

I'm an undergraduate in Statistics, so I won't call myself an expert, but here are my two cents.

Models don't explain themselves; humans interpret them. Linear models are easier to understand than neural networks and random forests because they are closer to how we make decisions. Indeed, ANNs imitate the human brain, but you don't decide which restaurant to go tomorrow by doing a series of matrix multiplications. Instead, you weight some factors in your mind by their importance, which is essentially a linear combination.

“解释能力”衡量模型与人类直觉相处的程度,而“预测能力”衡量模型与所关注过程的潜在机制的吻合程度。它们之间的矛盾本质上是世界是什么以及我们如何感知/理解世界之间的差距。我希望这可以解释为什么“某些模型即使在预测方面做得不好,但也能很好地进行解释”。

伊恩·斯图尔特(Ian Stewart)曾说过:“如果我们的大脑足够简单,足以让我们理解它们,那么我们将变得如此简单,以至于无法做到。” 不幸的是,与宇宙乃至股票市场(涉及很多大脑:)相比,我们的小人类大脑实际上非常简单。到目前为止,所有模型都是人脑的产物,因此它必须或多或少不准确,从而导致Box提出“所有模型都是错误的”。另一方面,模型不必在技术上正确就可以使用。例如,爱因斯坦已证明牛顿运动定律,但当物体不是不可笑的大或快时,它仍然有用。

To address your question, I honestly can't see the incompatibility between Box and Shmueli's points. It seems that you consider "explanatory power" and "predictive power" to be binomial properties, but I think they sit at the two ends of a spectrum.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.