插值的统计依据是什么?


16

假设我们有两个点(下图:黑色圆圈),并且我们想在它们之间找到第三个点的值(十字)。实际上,我们将根据实验结果(黑点)对其进行估算。最简单的情况是画一条线然后找到该值(即线性插值)。如果我们有支持点,例如,两侧都有棕色点,我们希望从中受益并拟合非线性曲线(绿色曲线)。

问题是,将红十字标记为解决方案的统计推理是什么?为什么其他十字架(例如黄色十字架)在可能的地方没有答案?什么样的推论或(?)促使我们接受红色的?

我将基于针对这个非常简单的问题的答案来提出我的原始问题。

在此处输入图片说明


7
这是一个非常恰当且有趣的问题。由于时间序列的固有方向性,您可能想区分时间序列插值和其他形式的插值(例如,样条或空间插值)。
Whuber

1
我很感谢这个很有启发性的评论。
开发人员

Answers:


14

任何形式的函数拟合,甚至是非参数函数拟合(通常对所涉及曲线的平滑度进行假设),都涉及假设,因此会产生信心飞跃。

线性插值的古老解决方案是,当您拥有的数据细粒度“足够”时(如果您看一个足够近的圆,它看起来也很平坦-只要问哥伦布)就可以“正常工作”,甚至是可行的在计算机时代之前(许多现代样条解决方案并非如此)。假设相信函数将在两点之间“以相同(即线性)事物继续”是合理的,但是没有先验的理由(除非对现有概念有所了解)。

当您具有三个(或更多)非共线点时(例如在上面添加了棕色点时),很快就会很清楚,它们之间的线性插值很快就会涉及到每个中的尖角,这通常是不希望的。那就是其他选项进入的地方。

但是,如果没有更多领域的知识,就无法确定一个解决方案比另一个解决方案要好(为此,您将不得不知道其他要点的价值,这将使该功能适合于该解决方案的目的被破坏了)。第一名)。

从好的方面来看,在“规则性条件”下(也许与您的问题更相关)(请阅读:假设:如果我们知道函数是平滑的),那么线性插值和其他流行的解决方案都可以证明是“合理的”近似值。不过:这需要假设,对于这些假设,我们通常没有统计数据。


这是一个很好的答案,是我的候选人被标记为答案。我知道,对于这种常见选择没有统计依据,对吗?
开发人员

确实,我相信没有,没有。
Nick Sabbe 2011年

2
一些文献(涉及竞争以对知名数据集的样本进行插值)部分验证了此答复,但并非完全验证。仅通过对数据进行统计分析就可以了解很多关于数据的空间相关性,而无需任何“规则性条件”。需要的是作为随机过程的一种实现的样本的数据模型,以及(1)遍历假设和(在大多数情况下)(2)某种平稳性假设。在此框架中,插值成为期望的预测,但甚至允许不可微分的曲线。
Whuber

1
@whuber:我现在不在我的舒适范围内,但是在您的评论中,“规则性条件”之后的所有内容看起来都是相当可靠的假设(平稳性很可能等于规则性条件,不是吗?)。实际上,我认为这将取决于您的样本量是否相对于函数形式中的不规则性而言是否较大...如果不是这种情况,您能否提供论文参考或类似参考?
尼克·萨卜贝

2
尼克,你无法做任何假设!但是,规则性(例如函数的平滑度)不是必需的:可以从数据中推断出规则性,至少可以在对函数进行采样的尺度上得出。 (平稳性是比平滑度要温和得多的假设。)您正确地需要较大的样本是正确的,但是即使使用30-50个精心选择的样本位置,也可以在2D中学到很多东西。文献很大;例如,数学地质学的大部分问题都专门针对此问题。有关严格的介绍,请参见Cressie的空间统计。

0

您可以计算出最适合的直线的线性方程(例如y = 0.4554x + 0.7525),但是,只有在标记了轴的情况下,该方程才有效。但是,这不会给您确切的答案,而只是相对于其他方面最合适的答案。


但是回归不是内插
Scortchi-恢复莫妮卡

1
@Scortchi我相信回归可以理解为插值。但是,提出回归作为解决方案并不能解决问题,这要求我们解释为什么任何类型的插值都是合理的(并暗含地邀请我们描述为证明其合理性所需的假设)。
ub

@whuber:谢谢。我至少在原型上将插值法视为join-the-dots-stats.stackexchange.com/a/33662/17230
Scortchi-恢复莫妮卡

@Scortchi该线程主要解决表中插值的数学概念。在对问题的评论中,我指出了对插值的常规统计理解,这有一点不同。回归在两个方面都起作用:回归函数既可以用作数学内插器(用于在表中采样的定义明确的函数),也可以用作统计内插器(通过对基于条件的随机过程的值进行统计预测)从该过程中获得的有限数量的值)。
ub

1
nn
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.