外推v。内插


28

外推法和内插法有什么区别,使用这些术语的最精确方法是什么?

例如,我在论文中看到了一个使用插值的语句:

“该过程在bin点之间插入估计函数的形状”

同时使用外推法和内插法的句子例如:

在上一步中,我们使用内核方法将内插函数外推到左侧和右侧的温度尾部。

有人可以提供一种清晰易用的方法来区分它们,并通过示例指导如何正确使用这些术语吗?




@usεr11852我认为这两个问题涉及相似的领域,但有所不同,因为这一个问题要求与插值进行对比。
mkt-恢复莫妮卡

插值法和外推法之间的区别是否已经以普遍认可的方式(例如,通过凸包)严格地形式化了,或者这些术语是否仍需人工判断和解释?
尼克·阿尔杰

Answers:


51

为此添加一个直观的解释:让我们考虑您打算建模的几点。

在此处输入图片说明

它们看起来可以很好地用直线描述,因此您可以对它们进行线性回归:

在此处输入图片说明

该回归线使您既可以插值(在数据点之间生成期望值)又可以进行插值(生成数据点范围之外的期望值)。我已经用红色突出显示了外推法,并用蓝色突出了了最大的内插区。需要明确的是,即使是点之间的微小区域也都可以插值,但是我仅在此处重点说明大区域。

在此处输入图片说明

为什么外推通常更受关注?因为通常您对数据范围之外的关系的形状不太确定。考虑一下当您收集更多数据点(空心圆)时可能发生的情况:

在此处输入图片说明

事实证明,您的假设关系毕竟无法很好地抓住这种关系。外推区域中的预测相去甚远。即使您猜到了可以正确描述非线性关系的精确函数,您的数据也没有延伸到足够大的范围以至于无法很好地捕获非线性,因此您可能还差得很远。请注意,这不仅是线性回归的问题,也是所有关系的问题-这就是为什么将外推视为危险的原因。

插值区域中的预测也是不正确的,因为拟合中缺乏非线性,但其预测误差要低得多。无法保证您的点之间(即插值区域)之间不会存在意外关系,但通常可能性较小。


我要补充一点,外推法并不总是一个糟糕的主意-如果您在数据范围之外进行一小部分外推,则可能不会很错(尽管有可能!)。没有良好的科学模型的古代人,如果预测第二天和之后的第二天太阳会再次升起(尽管距离未来很远,甚至会失败),也不会犯错。

2(感谢@JMisnotastatistician提醒我这一点)。

根据评论进行编辑:无论是内插还是外推,始终最好有一些理论来建立期望。如果必须进行无需理论的建模,则插值的风险通常要小于外推的风险。就是说,随着数据点之间的距离幅度的增加,插值也变得越来越充满风险。


5
我喜欢您的回答,并认为它是我的补充,绝非竞争。但是有一点对某些读者来说很重要,那就是红色和绿色很难使很多人在视觉上区分。
Nick Cox

1
@NickCox好点了,谢谢你提出来-我现在改变了配色方案。
mkt-恢复莫妮卡

1
@leftaroundabout我的观点是,基林曲线模式是如此之强,以至于忽略经济学和物理学的推断在几年到几十年的规模上仍然相当准确。我之所以说“过去几十年”,恰恰是因为那是我们进行高分辨率测量的时间范围。这是一个外推不会导致您严重错误的示例,我认为这是值得注意的。我认为,断言这个答案是在倡导无理论的外推是不经意的。
mkt-恢复莫妮卡

1
相关地,我在此答案中给出了塔勒布(Taleb)的“土耳其榜样”,作为对使用推断的人们的警告。
JM不是统计学家

1
当您过度拟合时,外推尤其成问题;例如,如果使用多项式模型,则在数据集之外进行大量运算会导致最高阶项爆炸。
累计

21

本质上,插值数据支持内或现有已知数据点之间的操作;外推法超越了数据支持。否则,标准是:缺失值在哪里?

区别的原因之一是,从统计学上讲,如果不切实际,通常很难做得好,甚至是危险的。并非总是如此:例如,河流洪水可能淹没了测量流量甚至水位(垂直水位)的手段,从而在测量记录中造成了漏洞。在那些情况下,放电或级的内插也很困难,并且在数据支持内也无济于事。

从长远来看,质变通常会取代质变。大约在1900年,人们非常担心马拉交通的增长会淹没大部分排泄物的城市。排泄指数已由内燃机及其不同的指数取代。

趋势是趋势是趋势,
但问题是,它会弯曲吗?
它会
通过某种不可预见的力量改变其进程
并过早地结束吗?

-亚历山大·凯恩克罗斯

Cairncross,A.1969。经济预测。经济杂志,79:797-812。doi:10.2307 / 2229792(引用第797页)


1
好答案。解释就在名称中-插值=平滑,外推=平滑。
核王

1
IMO这是正确的答案。“数据支持”是至关重要的;即使您想去的点在两个测得的点之间,也可能仍在数据支持范围之外。例如,如果您拥有罗马上古时期和现代的人的繁荣数据,但是没有这两者之间的数据,那么插值到中世纪将是非常有问题的。我称之为外推法。OTOH,如果您的数据在整个时间范围内都是稀疏而均匀地散布,那么将其插值到特定年份似乎更合理。
大约在

1
@leftaroundabout只是因为插值可能会在数据的巨大空白中完成,所以并不能进行插值。您误认为该程序本身适合该程序。有时插值也是一个坏主意。
mkt-恢复莫妮卡

1
@mkt:我将左撇子放在一边,因为他的第一个例子可以被认为是外推法,因为内插与外推的定义并不像我们想的那样准确。简单的变量转换可以将内插转换为外插。在他的示例中,使用距离函数代替原始时间意味着在原始时间我们进行插值,而在距离中我们在推算...使用原始时间可能是个坏主意。
Cliff AB

1
这是我的答案。我觉得没有资格要求它。内插法和外推法之间的广泛区别并不排除确定要进行的工作有点困难。如果您在数据空间的中间有一个大洞,则标记可以采用任何一种方式。正如一些摇摇晃晃的人指出的那样,白天的结束和夜晚的开始变得模糊起来,这一事实并不能使白天和黑夜之间的区别变得毫无意义或无用。
尼克·考克斯

12

TL; DR版本:

  • 国米 polation采用现有的数据点之间。
  • 除了它们之外,还会发生额外的定位

助记符:插值=>

FWIW:前缀之间跨手段,并超越预算外手段。想想也是的州公路各国之间,或去额外 terrestrials从超出了我们的星球。


1

例:

研究:想对6-15岁女孩的年龄高度进行简单的线性回归分析。样本数量为100,年龄由(测量日期-出生日期)/365.25计算得出。

收集数据后,对模型进行拟合并获得截距b0和斜率b1的估计。这意味着我们有E(height | age)= b0 + b1 * age。

当您想要13岁的平均身高时,您会发现在100个女孩的样本中没有13岁的女孩,其中一个是12.83岁,一个是13.24。

现在,将age = 13插入公式E(height | age)= b0 + b1 * age。之所以称为插值法,是因为13岁的数据被用于拟合模型的数据范围所覆盖。

如果您想获得30岁的平均身高并使用该公式,则称为外推法,因为30岁不在您的数据覆盖的年龄范围内。

如果模型具有多个协变量,则需要小心,因为很难绘制数据覆盖的边界。

在统计中,我们不主张外推。


“在统计上,我们不主张外推。” 时间序列分析的主要部分精确地完成这项....
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.