插值与回归概念有何关系？

17

简单解释一下插值的含义。它与回归的概念有什么关系？

插值法是一种在表的各行之间阅读的技巧，在基本数学中，该术语通常表示从该函数的一组给定值或表格值中计算出函数中间值的过程。

我不能回答第二个问题。请帮忙

regression self-study interpolation

— ha
source

4

回归旨在确定一个函数，该函数描述给定

（自变量）的

（因变量）的期望值。插值使用回归来预测给定

值下的

值。差异是细微的，但在将

关联起来的模型中就显得尤为重要，因为预测值通常会不同于其回归值。回归和预测都不能直接应用于通常假定没有随机误差的数学表中的插值，但仍可以使用其算法。

Y

$Y$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

— whuber

2

这是某班的作品吗？

— Glen_b-恢复莫妮卡

23

插值法和回归法之间的主要区别在于它们要解决的问题的定义。

给定数据点，进行插值时，您会寻找某种预定义形式的函数，该函数中的点中的值与指定的值完全相同。这意味着给定的对你寻找一些预定义的形式下，其满足。我认为最常将选择为多项式，样条曲线（在给定点之间的间隔上的低次多项式）。 $n$ $(x_i, y_i)$ $F$ $F(x_i) = y_i$ $F$

进行回归时，您会寻找一个使某些成本（通常是误差平方和）最小化的函数。您不需要功能在给定点具有确切的值，您只需要一个很好的近似值即可。在一般情况下，你的发现功能可能无法满足的任何数据点，但成本函数，即将是可能的最小给定形式的所有功能。 $F$ $F(x_i) = y_i$ $\sum_{i=1}^n (F(x_i) - y_i)^2$

一个很好的例子说明为什么您可能只想近似而不是插值的是股市价格。您可以以最近的时间单位为单位获取价格，并尝试对它们进行插值以对下一个时间单位的价格进行一些预测。这是一个坏主意，因为没有理由认为价格之间的关系可以由多项式精确表示。但是线性回归可能会成功，因为价格可能会有一些“斜率”，并且线性函数可能是一个很好的近似值，至少在本地是这样（提示：这并不容易，但是在这种情况下，回归绝对比插值更好））。 $k$

— 马杰夫斯基
source

好答案。我要补充一点，在回归中，背后有一个统计模型，该模型根据某种分布来定义

和

之间的关系，在该模型中，我们可以估算出其平均值（或中位数或分位数等，具有不同的回归风格），例如统计数据.stackexchange.com / questions / 173660 /…

Y

$Y$

X

$X$

— 蒂姆

您所描述的示例不是外推法而不是内插法吗？

— bi_scholar

6

前面的两个答案已经解释了线性插值和线性回归（甚至一般插值和多项式回归）之间的关系。但是重要的联系是，一旦拟合了回归模型，就可以使用它在给定的数据点之间进行插值。

— 迈克尔·R·切尼克
source

因此，当我对性别的身高进行回归时，我可以进行插值法来找到半男半女的预期身高！这个奇特的例子突出了此响应的基本缺陷，即假设回归模型中的所有回归变量都必须是连续变量。

— ub

2

我的回答适用于当所有的预测变量是连续..

— 迈克尔·Chernick

4

希望这将通过一个简单的示例和可视化很快地实现。

假设您具有以下数据：

我们可以使用回归模型Y作为对X的响应。使用R： lm(y ~ x)

结果是5的截距，x的系数为1。这意味着可以为给定的X计算X + 5的任意Y。如图所示，您可以这样看：

enter image description here

请注意，如果您沿X轴沿着它的任何位置去绘制一条线，直到拟合线，然后再将一条线绘制到Y轴上，那么无论我是否提供了一个值点，都可以得到一个值Y.回归通过估计基本关系来平滑没有数据的区域。

— 方铁
source

2

b / w的基本差异插值和回归如下：插值：假设有n个点（例如：10个数据点），在插值中，我们将通过所有数据点（即此处的10个数据点）的曲线拟合为多项式的阶数（数据点数-1;即这里是9）

通常，如果内插和回归的阶数大于3，则其阶数将为（1,2或3），在曲线中会看到更多的振荡。

— 用户名
source

2

这意味着，内插基于多项式，但还有其他一些方法，如三次样条，分段三次埃尔米特，最近的邻居，等等

— 尼克·考克斯

@Nick尽管您是对的，但很好奇您实际上命名的每个方法都是基于多项式的！也许最简单，最著名的非多项式插值器是反距离加权（IDW）。

— ub

@whuber同意；如果多项式可以与约束被应用，那么大多数方法获得资格，例如最近邻居=分段常数等

— 尼克考克斯

2

回归是找到最佳拟合线的过程[1]。插值是使用最佳拟合线从另一个变量的值估计一个变量的值的过程，只要您使用的值在数据范围内即可。如果超出范围，则将使用Extrapolation [1]。

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html

— 拉赞·保罗
source

2

这个答案不能区分内插和外推。您是否认为它们是同一回事？顺便说一句，数学论坛（甚至包括教科书和论文）通常不是有关统计问题的良好信息来源，因为它们倾向于关注狭义的数学含义，尽管在纯数学应用中是正确且有用的，但可能不会广泛应用。

— ub

1

通过插值或样条拟合，我们得到的是较大尺寸的数字数据（在每对原始数据之间插值），在绘制时会产生平滑曲线的效果。实际上，在每对原始数据之间拟合了一个不同的多项式，因此插值后的整个曲线是逐段连续的曲线，其中每段由不同的多项式形成。

如果要寻找原始数值数据的参数表示形式，则必须进行回归。您也可以尝试将高次多项式拟合到样条曲线。无论如何，表示将是近似值。您还可以检查近似值的准确性。

— 卡尼卡
source

您似乎还没有机会阅读尼克·考克斯（Nick Cox）的评论，该评论指出并非所有插值器都是（局部）多项式。

— ub

0

对于另一个变量（X）的给定值，回归和内插都可用于预测变量（Y）的值。在回归中，即使给定值（X）不在列表值的范围内，我们也可以预测因变量（Y）的任何值。但是在插值的情况下，我们只能预测因变量的值（Y）为自变量（X）的值，该值在X的给定值范围内。

— Kounteyo Roy chowdhury
source

0

插值是将x = a和x = b之间的许多点精确拟合到插值多项式的过程。插值可用于在域x = [a，b]中找到y的近似值（或缺失值），其准确性高于回归技术。

另一方面，回归是将许多点拟合到通过或接近点的曲线的平方误差最小的过程。回归将不会像插值一样精确地估计x = [a，b]域中y的值，但是对于x =（-infinity，a）和x =（ b，+无穷大）。

总而言之，插值可在已知x范围的域内提供更好的y值准确度，而回归可在已知x范围以下和范围之外的域提供更好的y预测。

— NFM Noor
source

3

使用多项式不是插值的定义。其他平滑函数可能是适当的。

— Nick Cox

3

您的主张还有其他问题。例如，回归可能比插值更为准确。这两个过程之间的统计区别与您所代表的完全不同：请参阅此线程中的其他文章。

— ub