如何从曲线拟合中解释协方差矩阵？

我不太擅长统计，因此很抱歉，这是一个简单的问题。我以曲线拟合的一些数据，有时候我的数据最适合的形式负指数，有时配合是更接近于。但是，有时两者都失败了，我想回到线性拟合中。我的问题是，如何根据从模型返回的结果方差-协方差矩阵确定哪种模型最适合特定数据集 $a * e^{(-b * x)} + c$ $a * e^{(-b * x^2)} + c$ scipy.optimize.curve_fit（）函数？我相信方差在此矩阵的对角线之一上，但我不确定如何解释。

更新：基于类似的问题，我希望方差-协方差矩阵可以告诉我我正在尝试的三个模型中的哪个最适合数据（我正在尝试将许多数据集适合这三个模型之一）。

对于给定的示例，结果矩阵如下所示：

pcov_lin 
[[  2.02186921e-05  -2.02186920e-04]
 [ -2.02186920e-04   2.76322124e-03]]
pcov_exp
[[  9.05390292e+00  -7.76201283e-02  -9.20475334e+00]
 [ -7.76201283e-02   6.69727245e-04   7.90218415e-02]
 [ -9.20475334e+00   7.90218415e-02   9.36160310e+00]]
pcov_exp_2 
[[  1.38338049e-03  -7.39204594e-07  -7.81208814e-04]
 [ -7.39204594e-07   8.99295434e-09   1.92970700e-06]
 [ -7.81208814e-04   1.92970700e-06   9.14746758e-04]]

这是我在做什么的一个例子：

import numpy as np
import matplotlib.pyplot as plt
import scipy as sp
import scipy.optimize

def exp_func(x, a, b, c):
    return a * np.exp(-b * x) + c

def exp_squared_func(x, a, b, c):
    return a * np.exp(-b * x*x*x) + c

def linear_func(x, a, b):
    return a*x + b

def main():
    x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20], np.float)
    y = np.array([1, 1, 1, 1, 0.805621, 0.798992, 0.84231, 0.728796, 0.819471, 0.570414, 0.355124, 0.276447, 0.159058, 0.0762189, 0.0167807, 0.0118647, 0.000319948, 0.00118267, 0, 0, 0], np.float)

    p0 = [0.7746042467213462, 0.10347274384077858, -0.016253458007293588]
    popt_lin, pcov_lin      = scipy.optimize.curve_fit(linear_func, x, y)
    popt_exp, pcov_exp      = scipy.optimize.curve_fit(exp_func, x, y)
    popt_exp_2, pcov_exp_2  = scipy.optimize.curve_fit(exp_squared_func, x, y)

    plt.figure()
    plt.plot(x, y, 'ko', label="Original data")
    plt.plot(x, linear_func(x, *popt_lin), 'r-', label='linear')
    plt.plot(x, exp_func(x, *popt_exp), 'b-', label='exponential')
    plt.plot(x, exp_squared_func(x, *popt_exp_2), 'g-', label='exponential squared')
    plt.legend()
    plt.show()

if __name__ == '__main__':
    main()

— 杰森·马滕斯（Jason Martens）
source

很棒的是，您链接到该CV问题，并因此链接到重要的评论线程（b / w rolando2，Frank Harrell等），询问是否适合根据事实来选择模型。也许最好使用系统的先验知识来选择模型。

— 阿曼2013年

关于简历的其他问题可能会有所帮助：stats.stackexchange.com/questions/50830/…–

— 阿曼

这可能有助于理解如何解释协方差矩阵stats.stackexchange.com/questions/10795/…- 我会说第三个模型的值较小，表示偏差较小。

— user4581

为了澄清起见，变量pcovfrom scipy.optimize.curve_fit是参数估计值的估计协方差，也就是说，给定数据和模型，数据中存在多少信息以确定给定模型中参数的值。因此，它并不能真正告诉您所选模型是否良好。另请参见本。

什么是好的模型确实是一个难题。正如由统计学家

所有模型都错了，但有些有用

因此，用于比较不同模型的标准取决于您要实现的目标。

例如，如果您希望曲线与数据“尽可能接近”，则可以选择残差最小的模型。在您的情况下，计算时具有最低值的将是模型func和估计的参数popt

numpy.linalg.norm(y-func(x, *popt))

但是，如果选择具有更多参数的模型，则残差将自动减少，以增加模型的复杂性为代价。因此，回到了模型的目标。

— 哈坎奇
source