外推有什么问题？

68

我记得在统计课上读本科时曾听说过为什么外推是个坏主意。此外，在线上有各种来源对此发表了评论。还有它一提这里。

谁能帮我理解为什么外推是个坏主意？如果是这样，那么预测技术在统计上不是无效吗？

regression time-series forecasting

— 一个男子
source

3

@Firebug马克吐温对此有话要说。在我的答案接近结尾处stats.stackexchange.com/a/24649/919引用了相关文章。

— 豪伯

1

@whuber我想现在还不完全是推断。假设我们正确地训练和验证了算法，以预测该功能在一周内的数据。进行正确的重采样（并进行调整，如果需要调整超参数），那么我看不出有什么问题，您有一个响应，并且您也应该知道该响应的置信度。现在，如果您每周进行一次算法训练，就无法期望准确地预测未来一年。对不起，可能造成混乱。

— Firebug

7

@Firebug无需道歉-您的评论包含有用的澄清信息。当我阅读它们时，他们建议“外推”在预测环境中可以有多种解释。一个是它涉及时间的“外推”。但是，当您查看标准时间序列模型时，尤其是那些时间不是显式协变量的模型，它们会根据以前的值预测未来的值。当这些先前值保持在过去先前值的范围内时，该模型将完全不执行外推！其中可能存在明显矛盾的解决方案。

— ub

7

xkcd.com/605

— immibis

2

我对强制性xkcd出现需要多长时间感到失望

— Duncan X Simpson

89

回归模型通常用于外推，即预测对输入的响应，该输入超出用于拟合模型的预测变量的值范围。下图说明了与外推相关的危险。

回归模型是“通过构造”的插值模型，除非有充分的理由，否则不应将其用于推断。

— 科斯蒂亚
source

1

这是一个反对外推的可怕例子。直线回归线拟合数据点比弯曲的真实函数好得多。

— horaceT

9

“直线回归线拟合数据点比弯曲的true函数好得多”这句话是错误的。真正回归函数的RSS小于简单回归线的RSS，

— Kostia

点了，您可能（应该）是对的。但是从这一系列的观点来看，没有人可以推断出真正的功能。

— horaceT

27

究竟。这就是为什么外推可能不是一个好主意的原因。

— Kostia

“回归模型是“通过构建”的插值模型”->我想我们可以对插值有完全相同的问题（即使不太可能发生）

— Metariat

88

这个xkcd漫画解释了这一切。

利用Cueball（拿着棍子的男人）的数据点，他推断该女人将在下个月底之前拥有“四打”丈夫，并以此推断得出了批量购买结婚蛋糕的结论。

编辑3：对于那些说“他没有足够的数据点”的人，这是另一本xkcd漫画：

在此，在半对数图上显示了单词“ sustainable”随时间的使用情况，并且推断出数据点后，我们对“ sustainable”一词在未来的出现频率有不合理的估计。

编辑2：对于那些说“您也需要所有过去的数据点”的人，还有另一本xkcd漫画：

在这里，我们拥有所有过去的数据点，但是我们无法准确预测Google Earth的分辨率。请注意，这也是半对数图。

编辑：有时，即使是最强的（r = .9979）相关性也完全是错误的。

如果您在没有其他支持证据的情况下推断，您也违反相关性并不表示因果关系 ; 统计领域的另一大罪过。

如果推断与Y X，但是，你必须确保你能准确（足以满足您的需求）预测X与仅 Y.几乎总是有多重因素的影响比X.

_{我想分享到另一个答案的链接，该答案用Nassim Nicholas Taleb的话来解释。}

— NoɥʇʎԀʎzɐɹƆ
source

14

xkcd开玩笑说每个人可能遇到的每一个数学/统计问题，不是吗？

— Ander Biguri

24

这个想法也可以用作反对插值的论点：“昨晚你有0.5个丈夫”。

— 6

3

@JiK如果您只知道她现在有一个，而两天前她还没有，那是一个不错的估计；-)

— Dennis Jaheruddin

9

可持续可持续可持续可持续可持续可持续可持续。 en.wikipedia.org/wiki/...

— Meni罗森菲尔德

1

更多xkcd，人们！

— noɥʇʎԀʎzɐɹƆ

24

“预测非常困难，尤其是关于未来的时候”。报价以某种形式归属于许多人。我将以下“推算”限制为“超出已知范围的预测”，并且在一维设置中，将从已知过去推算为未知未来。

那么外推到底有什么问题。首先，对过去进行建模并不容易。其次，很难知道过去的模型是否可以用于未来。在这两个断言的背后，都存在关于因果关系或遍历性，解释变量的充分性等深层次的问题，这些问题完全取决于大小写。错误的是，如果没有很多额外的信息，就很难选择一种在不同情况下都能正常工作的外推方案。

$x$

但是，可以对预测进行一定程度的纠正。除其他答案外，还有以下两个要素可以帮助进行实际推断：

$n$ $p$ $f_p(n)$ $p\ge n$
您可以使用几种外推模型，并将其组合或选择最佳模型（组合预测，J。Scott Armstrong，2001年）。最近，有很多关于它们的最佳组合的作品（如果需要，我可以提供参考）。

最近，我参与了一个用于在实时环境中外推仿真子系统通信的值的项目。这个领域的教条是外推可能会导致不稳定。我们实际上意识到，将以上两种成分组合在一起非常有效，并且没有明显的不稳定（尚无正式证据，目前正在审查中）。并且外推法使用简单的多项式进行工作，运算量非常低，大多数运算都是预先计算的，并存储在查找表中。

最后，正如外推显示有趣的绘图一样，以下是线性回归的后向效应：

— 劳伦·杜瓦尔（Laurent Duval）
source

+1好答案。根据这个网站，玻尔似乎不太可能这么说。这似乎更像是一种不常见但普遍的丹麦谚语。

— usεr11852

@usεr11852不太可能他“曾经说过”？那为什么我说“归因”，我应该更加谨慎吗？

— 洛朗·杜瓦尔

2

我从来没有说过永远。我之所以发表这一评论，是因为考虑到这句话很可能是丹麦的谚语，将其归因于特定的（极具象征意义的）丹麦人似乎有点夸大其词-尤其是鉴于没有玻尔的记载。原始作者可能是一位不愿透露姓名的渔夫，对明天的捕捞发表评论！我为这里的小家伙加油！：D

— usεr11852，2016年

2

很难模拟过去的报价图例。

— 洛朗·杜瓦尔

3

当然，这个问题使用了两个词：整个问题是“预测”是否必须被视为“外推”的形式。根据您的介绍性意见，您似乎将外推定义为使用过去来“为未来建模”。除非您为每个提供清晰明确的定义，否则您的答案可能会被误解。

— whuber

17

尽管模型的拟合可能是“ 良好 ”的，但必须怀疑地对待超出数据范围的外推法。原因是，在许多情况下（不幸且不可避免），外推依赖于数据行为的无法检验的假设，超出了他们的观察支持。

$x_{out}$

另一个需要注意的是，许多非参数估计技术本身不允许外推。在花键平滑的情况下，此问题特别明显，因为不再有打结来固定拟合的花键。

让我强调，外推远非邪恶。例如，在统计学中广泛使用的数值方法（例如Aitken的平方平方过程和Richardson的Extrapolation）本质上是外推方案，其依据是为观察数据分析的函数的基本行为在函数的支持范围内保持稳定。

— usεr11852
source

ε

$\varepsilon$

Δ^{2}

$\Delta^2$

15

与其他答案相反，我想说的是外推法没有什么不妥之处，只要它不是无意识的就可以使用。首先，请注意外推法是：

根据变量与另一个变量之间的关系来估计变量值（超出原始观察范围）的过程。

...这是一个非常宽泛的术语，从简单的线性外推到线性回归，多项式回归，甚至是一些高级时间序列预测方法，都可以满足这种定义。实际上，外推，预测和预测是紧密相关的。在统计中，我们经常进行预测和预测。这也是您引用的链接所说的：

从统计的第一天开始，我们就被告知推算是一个很大的禁忌，但这正是预测。

此外，许多外推方法用于进行预测，通常，一些简单的方法在处理小样本时效果很好，因此比复杂的方法更可取。如其他答案所示，问题是当您不正确地使用外推方法时。

例如，许多研究表明，西方国家的性启动年龄会随着时间的流逝而减少。看看下面关于美国第一次性交年龄的情节。如果我们盲目地使用线性回归来预测首次性交的年龄，我们将预测其在某些年份会低于零（与首次婚姻和死后某个时间发生的第一胎相对应）...但是，如果您需要提前一年进行预测，那么我猜想线性回归将为趋势提供相当准确的短期预测。

（来源guttmacher.org）

所有模型都是错误的，外推法也是错误的，因为它不能使您做出精确的预测。与其他数学/统计工具一样，它将使您能够进行近似预测。它们的准确程度取决于您拥有的数据的质量，使用适合问题的方法，在定义模型时所做的假设以及许多其他因素。但这并不意味着我们不能使用这种方法。可以，但是我们需要记住它们的局限性，并且应该针对给定问题评估其质量。

— 蒂姆
source

4

当您用于回归的数据在1980年代初结束时，您可能可以轻松地测试超出该日期的计算时间。

— Gerrit

@gerrit我同意，但是很遗憾，我找不到合适的数据。但是，如果有人可以指出我的意思，那么我很乐意为这样的比较更新我的答案。

— 蒂姆

在这种情况下，由于首次性行为的年龄在过去几年中有所上升，因此推断失败。（但出于明显的原因，这一数据总是比出生年份滞后了几十年。）

— David Manheim

13

我非常喜欢Nassim Taleb的示例（这是Bertrand Russell的早期示例的改编）：

考虑每天喂食的火鸡。就像一个政客所说的那样，每次喂食都会坚定这只鸟的信念，即每天都要由友好的人类成员喂食，这是人们的普遍规则，他们要“寻找最大的利益”。在感恩节前的星期三下午，火鸡会发生意外情况。它将导致信念的改变。

一些数学类似物如下：

对函数的前几个泰勒系数的了解并不总能保证后面的系数会遵循您的假定模式。
了解微分方程的初始条件并不能总保证其渐近行为的知识（例如，洛伦兹方程，有时会扭曲成所谓的“蝴蝶效应”）

这是一个不错的MO线程。

— J. M.不是统计学家
source

3

……当然，塔勒布必须指出道德上的教训：“别做火鸡”！在这种情况下：不要当粗心的推断者，也不要屈服于自大的罪过。

— JM不是统计学家

@uoɥʇʎPʎzɐɹC，我没有要求，但谢谢！

— JM不是统计学家

并没有真正用于交叉验证的声誉-而且没有人看到您的答案，这真的很好。请享用！

— noɥʇʎԀʎzɐɹƆ

12

如果可以，请思考以下故事。

我还记得坐在统计学课上，教授告诉我们外推是个坏主意。然后在下一堂课时，他告诉我们这又是一个坏主意。实际上，他说了两次。

在整个学期的余下的时间里我都感到恶心，但是我确定我不会错过太多的材料，因为到了上个星期，这个家伙肯定已经什么也没做，只是一次又一次地告诉人们外推法是个坏主意。

奇怪的是，我的考试成绩并不高。

— in
source

6

这个问题问“外推有什么问题？”。我们正在寻找能够给出为什么外推可能不是一个好主意的原因的答案。

— 罗伯特·朗·朗

8

@RobertLong：这实际上是一种元/笑话的答案，与xkcd.com/605非常相似-虽然作为注释，但还是比答案更好。

— 尼尔·斯莱特

@NeilSlater：你应该已经张贴您的评论作为一个答案... :)

— usεr11852

@RobertLong：这就是答案。它只是具有寓言的形式。

— einpoklum

2

尚不清楚您的模型是指数的。

— Gerrit

6

问题不仅是统计上的，也是认识论上的。外推是我们了解自然的方式之一，它是一种归纳法。假设我们具有材料在0到20摄氏度范围内的电导率的数据，那么对于40摄氏度时的电导率我们能说什么呢？

这与小样本推论密切相关：从对小样本进行的测量中我们能对整个总体说些什么？这是由Gosset的Guiness发起的，他提出了Student t分布。在他之前，统计学家并没有费心思量小样本，只要假设样本大小始终可以很大。他在吉尼斯（Guinnes）工作，不得不处理啤酒样品，以决定如何处理整批待装运的啤酒。

因此，在实践（商业），工程和科学领域，我们总是必须以某种方式进行推断。可能是将小样本外推到大样本，或者是从有限范围的输入条件外推到更广泛的条件集，从加速器中发生的事情到数十亿英里外的黑洞发生的事情等等。这在科学中尤其重要，就像我们通过研究外推估算值与实际测量值之间的差异而真正学到的一样。当差异很大或一致时，我们通常会发现新现象。

因此，我说外推没有问题。这是我们每天必须做的事情。这很难。

— 阿克萨卡尔族
source

4

外推法本身不一定是邪恶的，但它是一个过程，可以得出比您通过内插法得出的结论更不合理的结论。

通常进行外推以探索与采样区域相距甚远的值。如果我要从0到10采样100个值，然后一点点地外推到11，那么我的新点距任何数据点的距离可能比任何内插值都远10倍。这意味着（定性地）有更多的空间让变量失控。请注意，我故意选择了次要外推法。可能会变得更糟
必须使用旨在进行外推的曲线拟合进行外推。例如，许多多项式拟合的推导性非常差，因为在离开采样范围后表现良好的术语可能会爆炸。良好的推断取决于对采样区域之外发生的情况的“良好猜测”。带我去...
由于存在相变，通常很难使用外推法。人们可能希望推断的许多过程具有明显的非线性特性，这些特性在采样区域上没有充分暴露。围绕音速的航空业就是一个很好的例子。当您达到并超过空中信息传输的速度时，许多来自较低速度的推断就会崩溃。这在软科学中也经常发生，其中政策本身会影响政策的成功。凯恩斯主义经济学推断出经济在不同通胀水平下的表现，并预测了可能的最佳结果。不幸的是，有二阶效应，其结果不是经济繁荣，而是美国看到的一些最高的通货膨胀率。
人们喜欢外推法。一般来说，人们真的希望有人凝视一个水晶球，并告诉他们未来。他们将接受令人惊讶的不良外推，仅仅是因为这是他们拥有的所有信息。从本质上讲，这可能并不会使推断本身变得很糟糕，但是绝对是使用它时应该考虑的事情。

对于最终的推断，请考虑“曼哈顿计划”。在那里的物理学家在构造真实物体之前被迫进行极小规模的测试。他们根本没有足够的铀来浪费测试。他们尽力而为，而且很聪明。但是，当进行最终测试时，决定由每位科学家决定爆炸发生后离爆炸的距离。有实质性的意见，以有多远是“安全的”，因为每一个科学家知道他们是从他们的测试很远推断差异。甚至有一个不平凡的考虑，即他们可能会用核弹使气氛着火，这个问题还需要大量推算！

— 科尔特·阿蒙
source

3

在这里有很多很好的答案，我只想尝试综合一下我认为是问题的核心：在产生估计样本的数据生成过程之外进行推断是危险的。有时称为“结构性变化”。

预测带有假设，主要假设是数据生成过程与生成样本的过程相同（几乎没有显着差异）（rhs变量除外，您在模型中明确说明了其变化）。如果发生结构性变化（例如在Taleb的示例中为感恩节），所有赌注都将关闭。

— 杰森
source