外推法和内插法有什么区别,使用这些术语的最精确方法是什么?
例如,我在论文中看到了一个使用插值的语句:
“该过程在bin点之间插入估计函数的形状”
同时使用外推法和内插法的句子例如:
在上一步中,我们使用内核方法将内插函数外推到左侧和右侧的温度尾部。
有人可以提供一种清晰易用的方法来区分它们,并通过示例指导如何正确使用这些术语吗?
外推法和内插法有什么区别,使用这些术语的最精确方法是什么?
例如,我在论文中看到了一个使用插值的语句:
“该过程在bin点之间插入估计函数的形状”
同时使用外推法和内插法的句子例如:
在上一步中,我们使用内核方法将内插函数外推到左侧和右侧的温度尾部。
有人可以提供一种清晰易用的方法来区分它们,并通过示例指导如何正确使用这些术语吗?
Answers:
为此添加一个直观的解释:让我们考虑您打算建模的几点。
它们看起来可以很好地用直线描述,因此您可以对它们进行线性回归:
该回归线使您既可以插值(在数据点之间生成期望值)又可以进行插值(生成数据点范围之外的期望值)。我已经用红色突出显示了外推法,并用蓝色突出了了最大的内插区。需要明确的是,即使是点之间的微小区域也都可以插值,但是我仅在此处重点说明大区域。
为什么外推通常更受关注?因为通常您对数据范围之外的关系的形状不太确定。考虑一下当您收集更多数据点(空心圆)时可能发生的情况:
事实证明,您的假设关系毕竟无法很好地抓住这种关系。外推区域中的预测相去甚远。即使您猜到了可以正确描述非线性关系的精确函数,您的数据也没有延伸到足够大的范围以至于无法很好地捕获非线性,因此您可能还差得很远。请注意,这不仅是线性回归的问题,也是所有关系的问题-这就是为什么将外推视为危险的原因。
插值区域中的预测也是不正确的,因为拟合中缺乏非线性,但其预测误差要低得多。无法保证您的点之间(即插值区域)之间不会存在意外关系,但通常可能性较小。
我要补充一点,外推法并不总是一个糟糕的主意-如果您在数据范围之外进行一小部分外推,则可能不会很错(尽管有可能!)。没有良好的科学模型的古代人,如果预测第二天和之后的第二天太阳会再次升起(尽管距离未来很远,甚至会失败),也不会犯错。
(感谢@JMisnotastatistician提醒我这一点)。
根据评论进行编辑:无论是内插还是外推,始终最好有一些理论来建立期望。如果必须进行无需理论的建模,则插值的风险通常要小于外推的风险。就是说,随着数据点之间的距离幅度的增加,插值也变得越来越充满风险。
本质上,插值是数据支持内或现有已知数据点之间的操作;外推法是超越了数据支持。否则,标准是:缺失值在哪里?
区别的原因之一是,从统计学上讲,如果不切实际,通常很难做得好,甚至是危险的。并非总是如此:例如,河流洪水可能淹没了测量流量甚至水位(垂直水位)的手段,从而在测量记录中造成了漏洞。在那些情况下,放电或级的内插也很困难,并且在数据支持内也无济于事。
从长远来看,质变通常会取代质变。大约在1900年,人们非常担心马拉交通的增长会淹没大部分排泄物的城市。排泄指数已由内燃机及其不同的指数取代。
趋势是趋势是趋势,
但问题是,它会弯曲吗?
它会
通过某种不可预见的力量改变其进程
并过早地结束吗?-亚历山大·凯恩克罗斯
Cairncross,A.1969。经济预测。经济杂志,79:797-812。doi:10.2307 / 2229792(引用第797页)
例:
研究:想对6-15岁女孩的年龄高度进行简单的线性回归分析。样本数量为100,年龄由(测量日期-出生日期)/365.25计算得出。
收集数据后,对模型进行拟合并获得截距b0和斜率b1的估计。这意味着我们有E(height | age)= b0 + b1 * age。
当您想要13岁的平均身高时,您会发现在100个女孩的样本中没有13岁的女孩,其中一个是12.83岁,一个是13.24。
现在,将age = 13插入公式E(height | age)= b0 + b1 * age。之所以称为插值法,是因为13岁的数据被用于拟合模型的数据范围所覆盖。
如果您想获得30岁的平均身高并使用该公式,则称为外推法,因为30岁不在您的数据覆盖的年龄范围内。
如果模型具有多个协变量,则需要小心,因为很难绘制数据覆盖的边界。
在统计中,我们不主张外推。