如何使用统计显着性比较两个不同模型的准确性

10

我正在研究时间序列预测。我有两个数据集和。我有三个预测模型：。使用数据集样本训练所有这些模型，并使用数据集的样本测量其性能。假设性能指标是MSE（或其他任何指标）。在针对数据集进行测量时，这些模型的MSE为和。如何测试一种模型相对于另一种模型的改进具有统计学意义。 $D1=\{x_1, x_2,....x_n\}$ $D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}$ $M1, M2, M3$ $D1$ $D2$ $D2$ $MSE_1, MSE_2,$ $MSE_3$

例如，假设，，，并且基于数据集计算这些MSE 的样本总数为2000。如何测试，和有显着差异。如果有人可以帮助我解决这个问题，我将不胜感激。 $MSE_1=200$ $MSE_2=205$ $MSE_3=210$ $D2$ $MSE_1$ $MSE_2$ $MSE_3$

— 马舒德
source

1

上面的链接文章之一暗示使用似然比检验，尽管您的模型必须嵌套在一起才能起作用（即，其中一个模型中的所有参数都必须存在于您要对其进行测试的模型中）。

RMSE显然可以衡量模型拟合数据的程度。但是，似然比也是如此。陈太太说，对于一个给定的人，可能性是一个具有所有参数的人得到她所得到的结果的可能性。数据集的联合似然是Chen夫人的可能性* Gundersen夫人的可能性* Johnson夫人的可能性* ...等。

我认为，添加协变量或任意数量的协变量并不能真正使似然比变差。但是它可以将似然比提高不明显的数量。拟合得更好的模型将具有更高的可能性。您可以正式测试模型A是否更适合模型B。您应该在使用的任何软件中都提供某种LR测试功能，但基本上，LR测试统计量为-2 *似然对数的差，并且它的分布卡方与df =数量之差参数。

同样，比较两个模型的AIC或BIC并找到最低的模型也是可以接受的。AIC和BIC基本上是因参数数量而受到惩罚的对数似然率。

我不确定是否要对RMSE使用t检验，除非您能找到该领域已完成的一些理论工作，否则我实际上会反对它。基本上，您知道RMSE的值是如何渐近分布的吗？我不确定。这里有一些进一步的讨论：

http://www.stata.com/statalist/archive/2012-11/index.html#01017

— 吴伟文
source

0

这个答案没有考虑到事实，即您的数据形成一个时间序列，但我认为这不会成为问题。

当使用RMSE时，本文建议使用t检验：测试模型RMSE的重要性

您还可以使用Pearson的相关性来评估您的健康状况。根据这篇文章，您可以使用Wolfe的t检验：相关性增加的统计显着性

我目前正在尝试了解相同的问题。我希望自己提供更详细的答案。

— 布歇尔
source

0

有两种主要方法可以做到这一点，但首先，我将挑战您只选择一种方法的想法。最有可能的是，三个独立模型的整体模型将实现所有模型的最佳性能。

最主要的方法（也许是最好的方法）是使用模型来获得围绕评估指标的置信区间。这通常通过自举（或Poisson引导程序）完成。

另一种方法是使用统计检验。每个测试都做出不同的假设，这些假设通常用于比较从分布而不是单点评估中得出的值或样本。这些统计测试中有许多形式上都正式要求独立性，在时间序列数据上比较同一模型或多个模型的多个结果时，通常没有这种独立性。

特别是对于时间序列预测，您应该使用交叉验证进行回测，并每次都评估训练和测试错误（示例）。当您执行此操作时，我怀疑您的模型的所有性能都会如此相似，以至于您需要进行统计检验才能区分。您很有可能会看到很大的差异。

还要注意，仅历史评估指标（将实际值与预测进行比较）不足以进行预测评估。给定两个与已知历史数据完全匹配的预测，但一个也与对未来的先前信念相匹配，而另一个则明显违背（例如，如果一个消失为零，但您有理由相信这不可能发生），则您会更喜欢该预测更好地匹配您之前的情况。

— 迈克尔·布鲁丹奇
source