卡尔曼滤波器与多项式回归之间有什么关系？

56

卡尔曼滤波和（必要时重复）最小二乘多项式回归之间的关系（如果有）？

kalman-filters

— hotpaw2
source

马上，通过卡尔曼滤波，我们无法访问将来的值（因此是预测部分），而在多边形拟合中，我们拥有最适合数据的整个数据集。不过，这是一个很大的问题！+1。

— Spacey 2012年

@Mohammad：您在哪里看到需要为两种方法提供不同（子集）数据点的需求？

— hotpaw2

@Mohammad多项式回归CAN推断，因此可用于将来预测。

— Dipan Mehta

@DipanMehta / @ hotpaw2嗯，我想我没有意识到。AFAIK for poly我们需要先访问整个数据集，然后才能计算出最佳拟合。（离线处理）。尽管现在考虑到这一点，但我认为在线版本也可以工作……每次有新样品出现时，我们都会重新寻找最合适的方法。但是“预测”在哪里呢？

— Spacey 2012年

@Mohammad并不擅长数学-但基本上对于任何回归来说都是如此。您拥有训练向量并应用了并发现了模型参数那么您还有另一个，推长度可以使用与上述相同的模型来获得最佳估计，这不过是预测而已。当您实际基于误差测量时，就有机会更新/改进模型。

X_{t}

$X_t$

Y_{t}

$Y_t$

α [i]

$\alpha[i]$

X_{k}

$X_k$

Y_{K}

$Y_K$

Y_{K}^{'}

$Y_K'$

— Dipan Mehta

49

1.最佳标准方面有所不同

卡尔曼滤波器是线性估计器。它是线性的最佳估计量 -即从间接，不准确和不确定的观察结果中推断出感兴趣的模型参数。

但是最佳意义是什么？如果所有噪声均为高斯噪声，则卡尔曼滤波器将估计参数的均方误差最小化。这意味着，当基础噪声不是高斯噪声时，承诺将不再成立。在非线性动力学的情况下，众所周知，状态估计的问题变得困难。在这种情况下，没有任何一种过滤方案明显胜过所有其他策略。在这种情况下，如果非线性估算器可以使用附加信息更好地对系统进行建模，则可能会更好。[见参考文献1-2]

多项式回归是线性回归的一种形式，其中将自变量x和因变量y之间的关系建模为n阶多项式。

Y = a_{0} + a_{1} x + a_{2} x^{2} + ϵ

$Y = a_0 + a_1x + a_2x^2 + \epsilon$

注意，尽管多项式回归将非线性模型拟合到数据，但从估计的角度来看，这些模型都是线性的，因为就未知参数而言，回归函数是线性的。如果我们将视为不同的变量，则多项式回归也可以视为多元线性回归。 $a_0, a_1, a_2$ $x, x^2$

多项式回归模型通常使用最小二乘法进行拟合。同样在最小二乘法中，我们使均方误差最小。在高斯-马尔可夫定理的条件下，最小二乘法最小化了系数的无偏估计量的方差。该定理指出，在以下条件下，普通最小二乘（OLS）或线性最小二乘是最佳线性无平衡估计器（BLUE）：

一种。当错误的期望值为零时，即 b。具有相等的方差，即 c。和错误是不相关的，即 $E(e_i) = 0$
$Variance(e_i) = \sigma^2 < \infty$
$cov(e_i,e_j) = 0$

注意：这里的错误不必是高斯型的，也不必是IID的。它只需要是不相关的。

2.卡尔曼滤波器是最小二乘估计量的演化

1970年，索伦森（HW Sorenson）发表了IEEE频谱文章，标题为“最小二乘估计：从高斯到卡尔曼。 ” [请参见参考文献3。]这是一篇开创性的论文，它提供了关于高斯最初的最小二乘思想如何与当今的现代技术相结合的重要见解。像卡尔曼这样的估算者。

高斯的工作不仅引入了最小二乘框架，而且实际上是最早使用概率观点的工作之一。尽管最小二乘以各种回归方法的形式演变，但还有另一项关键工作使滤波器理论被用作估计量。

用于固定时间序列估计的滤波理论是由诺伯特·维纳（Norbert Wiener）在1940年代（第二次世界大战期间）构建的，并于1949年发布，现在被称为维纳滤波器。该工作完成得较早，但直到第二次世界大战后才进行分类。Wiener工作的离散时间等效项由Kolmogorov独立推导并于1941年发表。因此，该理论通常称为Wiener-Kolmogorov滤波理论。

传统上，滤波器是为实现所需的频率响应而设计的。但是，在维纳滤波器的情况下，与所需的无噪声信号的估计相比，它减少了信号中存在的噪声量。韦纳滤波器实际上是一个估计量。然而，在一篇重要的论文中，Levinson（1947）[参见参考文献6]表明，在离散时间内，整个理论可以减小到最小二乘，因此在数学上非常简单。参见参考文献4

因此，我们可以看到，韦纳的工作为估计问题提供了一种新方法。从使用最小二乘到另一种公认的过滤器理论的演进。但是，关键限制是维纳滤波器假定输入是固定的。可以说，卡尔曼滤波器是进化的下一步，它将放弃平稳的标准。在卡尔曼滤波器中，可以动态地调整状态空间模型以处理信号或系统的非平稳性质。

卡尔曼滤波器基于离散时域中的线性动态系统。因此，与维纳相反，它能够处理潜在的时变信号。由于Sorenson的论文在高斯最小二乘和卡尔曼滤波器之间画出了平行线，因此

...因此，人们看到高斯和卡尔曼的基本假设是相同的，只是后来允许状态从一次改变到下一次。差异引入了对高斯问题的非平凡修改，但可以在最小二乘框架内进行处理。

3.就预测的因果关系而言，它们是相同的；除了执行效率

有时会认为卡尔曼滤波器用于基于过去的数据预测未来事件，其中回归或最小二乘会在端到端进行平滑。这不是真的。读者应注意，这两个估计量（以及您可能想到的几乎所有估计量）都可以完成任何一项工作。您可以应用Kalman滤波器来应用Kalman平滑。

类似地，基于回归的模型也可以用于预测。给定训练向量，您应用并发现了另一个样本的模型参数，我们可以根据模型外推。 $X_t$ $Y_t$ $α_0 ... a_K$ $X_k$ $Y_K$

因此，两种方法都可以以平滑或拟合（非因果关系）的形式使用，也可以用于未来的预测（因果关系）。但是，关键的区别在于实现的意义重大。在多项式回归的情况下-需要重复整个过程，因此虽然可以实施因果估计，但计算量可能很大。[但是，我敢肯定，到目前为止，必须进行一些研究才能使事情反复进行]。

另一方面，卡尔曼滤波器本质上是递归的。因此，将其用于将来的预测（仅使用过去的数据）将非常有效。

这是另一个比较几种方法的不错的演示：参考5

参考文献

卡尔曼滤波器最佳入门-Dan Simon 卡尔曼滤波嵌入式系统编程2001年6月，第72页
演讲：Lindsay Kleeman 了解和应用卡尔曼滤波
HW Sorenson 最小二乘估计：从高斯到Kalman IEEE Spectrum，1970年7月。第63-68页。
MIT课件讲义
从线性回归到卡尔曼滤波以及超越赫尔辛基工业大学的 SimoSärkkä演讲
列文森（1947）。“滤波器设计和预测中的维纳RMS误差标准。” J.数学 Phys。，第25卷，第261-278页。

— 迪潘·梅塔（Dipan Mehta）
source

很好的故障！

— Spacey 2012年

1

“了解和应用卡尔曼滤波”链接已断开。我认为此链接有效：cs.cmu.edu/~motionplanning/papers/sbp_papers/integrated3/…–

— Vinod

真是个好答案。这就是这个网站如此强大的原因！

— 罗伊2014年

很棒的答案，有时候很难找到诸如此类的简单而基本的问题的答案

— ZiglioUK 2015年

6

差异非常大，因为它们是两个完全不同的模型，可以用来解决相同的问题。让我们快速回顾一下。

多项式回归是函数逼近的一种方式。我们具有形式的数据集，并希望确定函数关系，通常通过估计概率密度来表示该函数关系。在此为高斯的假设下，我们得到最小二乘解作为最大似然估计。 $\lbrace x_i, z_i \rbrace$ $p(z|x)$ $p$

卡尔曼滤波是线性动力学系统中一种特殊的推理方法。LDS是状态空间模型的一种特殊情况，其中我们假设观察到的数据是通过对高斯随机变量上的马尔可夫链的后续步骤应用线性变换而生成的。因此，我们实际上要做的是对建模，这是一个时间序列的概率。卡尔曼滤波的过程然后是预测时间序列的下一个值，例如最大化。但是，可以使用相同的模型进行平滑，插值和更多操作。 $p(x_{1:T})$ $p(x_{t+1}|x_{1:t})$

因此：多项式回归可以进行函数逼近，卡尔曼滤波可以进行时间序列预测。两者完全不同，但是时间序列预测是函数逼近的特例。同样，两个模型都基于它们观察到的数据而有完全不同的假设。

— 拜耳
source

关于观察到的数据有哪些不同的假设？

— hotpaw2

1

@ hotpaw2，PR：数据是由具有附加高斯噪声的多项式生成的。LDS：数据由高斯分布变量的未观察到的马尔可夫链生成，该高斯分布变量与观察到的数据线性相关。

— 拜耳2012年

5

不是卡尔曼滤波器的专家，但是我认为传统卡尔曼滤波假定可观察数据与您要推断的数据之间存在线性关系，而扩展卡尔曼滤波器等更复杂的模型则可以假设非线性关系。

考虑到这一点，我认为对于传统的卡尔曼滤波器，在线线性回归在性能上将类似于卡尔曼。但是，也可以使用多项式回归，该回归将采用传统卡尔曼可能无法捕获的非线性关系。

— 太空的
source

4

卡尔曼滤波可为下一个状态提供多种预测，而回归无法外推。

卡尔曼滤波器还专注于包括噪声因子（基于高斯分布）。

— 盖尔滕
source

有多个预测？还是单个多维预测向量？（可以提供多维的线性或多项式回归？）

— hotpaw2 2012年

每个维度/变量的多个预测（以及该预测的确定性是正确的）。这与将噪声合并到预测中的方式有关。

— 盖尔滕

并非完全正确。PR也为您提供了发行版，只是不常用。另外，如果将最小二乘多项式回归用于时间序列预测，则其噪声模型与卡尔曼滤波器完全相同。

— 拜耳2012年

3

已经说了很多，请允许我添加一些评论：

卡尔曼滤波器是贝叶斯概率理论的一种应用，这意味着可以（并且必须）指定“先验信息”或“先验不确定性”。据我了解，传统的最小二乘拟合并非如此。尽管可以使用LSQ拟合中的概率对观察值（数据）进行加权，但是不能轻易考虑解决方案的先验知识。

总而言之，KF找到的解决方案将取决于

a）提供“预测”的模型

b）作为“观测”的测量

c）预测和观测的不确定性

d）解决方案的先验知识。

“先验知识”被指定为初始猜测的方差，但在每个应用程序中都不相关或在不同程度上得到了利用。

如前所述，KF的常见用途是减少实时观测中的噪声。将观测值与模型预测值进行比较可以帮助估计无噪声的“真实测量值”。常见的应用就是将KF称为过滤器的原因。

在此示例中，最初的猜测将是假设从零时点开始的假设解，KF从该时间开始，具有相关的“先前不确定性”。通常，您会在预测模型中拥有一些未知的参数，但是这些参数可能受测量值的约束，即“可观察”。随着时间序列的移动，KF将改善对这些参数和“真实测量值”的估计。在那种情况下，通常将初始状态指定为仅产生一致的滤波性能：定义为实际估计误差在KF提供的解决方案的不确定性范围内。在该示例中，可以将初始状态的先前不确定性指定为较大，从而为KF提供纠正其包含的任何错误的机会。还可以指定较小的值，

KF设计的这一领域可能涉及反复试验或工程判断，以得出导致良好性能的初始状态及其不确定性的值。因此，KF滤波器设计的这方面和其他方面，包括指定不确定性以导致良好的性能（数值，估计，预测...），通常被称为“滤波器调整”。

但是在其他应用中，可以采用更严格和有用的方法来处理先前的不确定性。前面的示例是关于实时估计（从不确定的测量结果中滤除噪声）。初始状态及其方差（不确定性）几乎是尽早初始化滤波器的必要条件，此后，随着将来的观察结果用于改进估计，初始状态变得越来越不重要。现在考虑在特定时间t_s应用于测量和模型预测的卡尔曼滤波器。我们有不确定的观察结果，不确定的模型，但我们对要寻找的解决方案也有一些先验知识。假设我们知道其高斯PDF：均值和方差。在这种情况下，解决方案可能在很大程度上取决于先前的不确定性，即上面的d）项，

此功能是贝叶斯理论的基础，它使KF可以解决随机问题，同时考虑到通常可用的各种不确定性/信息。由于KF已经开发和应用了数十年，因此其基本功能并不总是得到详细描述。以我的经验，许多论文和书籍都专注于最优性和线性化（扩展KF，无味KF等）。但是，通过阅读介绍性文章和有关“粒子过滤器”的文章，我发现了对贝叶斯理论与KF之间联系的很好描述。这些是贝叶斯估计的另一种且最近的实现，如果您有兴趣，请查阅它们！

— 巴特·范霍夫
source

1

可以通过在真实数据之前添加一些预先设置的先验/预测/猜测（均值和方差）数据点，然后使用迭代最小二乘多项式回归来获得类似的贝叶斯更新效果（通过使用卡尔曼滤波器提供）在输入真实数据时更新预测（以及方差或回归系数）？

— hotpaw2

虽然可以轻推适合“先验”数据的函数（除了我们给它们的名称之外，它与任何其他数据都没有什么不同），但是在条件设置中结合不确定性的正确方法（先验+观察） =后验）是在贝叶斯理论中定义的。我并不是说不可能通过其他方式重现贝叶斯结果，但是数据拟合和贝叶斯定理是不同的东西，仅后者被认为可以产生正确的统计数据。我希望添加观察值和计算条件概率之间会有区别。

— 巴特·范霍夫

该解决方案确实专注于用法，因此我提高了使用率。

— 罗格斯

您可能也会发现此StackExchange线程也很有趣，这个问题与您的问题非常相似，但是将多项式拟合与一般的贝叶斯推断进行了比较，卡尔曼滤波器就是一个例子。 stats.stackexchange.com/questions/252577/…–

— 巴特·范霍夫

给出更多的背景信息：卡尔曼滤波器是解决一般贝叶斯问题的一种特殊方法，尤其适用于涉及数据时间序列（例如，在线估计）的问题。我上面链接的主题考虑了一次回归问题的一般贝叶斯处理，其中一次使用了所有数据，这比多项式拟合更类似于多项式拟合，如此处在多个答案中提到的那样。

— 巴特·范霍夫