我已经读过,对时间序列使用R平方是不合适的,因为在时间序列上下文中(我知道还有其他上下文),R平方不再是唯一的。为什么是这样?我试图进行查找,但没有找到任何东西。通常,在评估模型时,我不会对R平方(或调整R平方)进行任何评估,但是我的许多同事(例如,商务专业)绝对喜欢R平方,因此我希望能够向他们解释为什么R-Squared在时间序列的背景下不合适。
我已经读过,对时间序列使用R平方是不合适的,因为在时间序列上下文中(我知道还有其他上下文),R平方不再是唯一的。为什么是这样?我试图进行查找,但没有找到任何东西。通常,在评估模型时,我不会对R平方(或调整R平方)进行任何评估,但是我的许多同事(例如,商务专业)绝对喜欢R平方,因此我希望能够向他们解释为什么R-Squared在时间序列的背景下不合适。
Answers:
问题的某些方面:
如果有人给我们一个数字向量 和一个一致的数字矩阵 ,我们无需知道它们之间的关系即可执行某些估计代数, 作为因变量。无论这些数字代表横截面,时间序列或面板数据,还是矩阵,都将产生代数 包含的滞后值 等等
确定系数的基本定义 是
哪里 是某些估算程序的残差平方和,并且 是因变量与其样本均值的平方偏差的总和。
结合在一起 对于特定的数据样本,变量之间关系的特定公式和特定的估算程序,将始终唯一地进行计算,但前提是估算程序必须能够对涉及的未知量进行点估算(因此,对因变量进行点估计,从而对残差进行点估计)。如果这三个方面中的任何一个发生变化,则 通常会发生变化-但这适用于任何类型的数据,而不仅仅是时间序列。
所以问题 时间序列和时间序列之间的关系不是“唯一”的(因为大多数时间序列数据的估计程序都提供了点估计)。问题是“常规”时间序列规范框架在技术上是否对以及 提供了一些有用的信息。
的解释 如“解释因变量方差的比例”主要取决于残差加起来等于零。在线性回归(基于任何类型的数据)和普通最小二乘估计的情况下,只有当规范在回归矩阵中包含常数项(时间序列术语中的“漂移”)时,才能保证这一点。在自回归时间序列模型中,许多情况下不包括漂移。
更一般而言,当我们面对时间序列数据时,我们会“自动”开始考虑时间序列将如何发展到未来。因此,我们倾向于根据时间模型来预测未来价值,而不是根据过去的价值来评估时间序列模型。但是主要反映了后者,而不是前者。众所周知的事实是回归变量的数量不减少意味着我们可以通过不断增加回归变量(任何回归变量,即任何系列的数字,可能在概念上与因变量完全无关)来获得完美的拟合。经验表明,如此获得的完美拟合也将在样本外部给出深不可测的预测。
直觉上,这种可能是违反直觉的折衷是因为通过将因变量的整个可变性捕获为一个估计方程,就预测而言,我们将非系统性可变性转化为系统性可变性(此处,相对于我们的知识应理解为“非系统性”) -从纯粹确定性的哲学观点来看,不存在“非系统性可变性”之类的东西,但是在某种程度上,由于我们有限的知识迫使我们将某些可变性视为“非系统性”,因此试图将其变成系统性的组件,带来预测灾难)。
实际上,这也许是向某人展示为什么的最令人信服的方式 在处理时间序列时不应成为主要的诊断/评估工具:将回归变量的数量增加到 。然后采用估计方程,并尝试预测因变量的未来值。