我是商业和经济学专业的毕业生,目前正在攻读数据工程硕士学位。在研究线性回归(LR)然后进行时间序列分析(TS)时,我想到了一个问题。为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?所以老师建议我写一篇关于这个问题的文章。我不会徒劳地寻求帮助,所以我做了关于该主题的研究。
我已经知道使用LR时,如果违反了高斯-马尔可夫假设,则OLS回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(与此有关的另一个问题是,一个通用汽车假设是自变量应该是正态分布的?还是仅以自变量为条件的因变量?)
我也知道,当使用分布式滞后回归(这是我在这里提出的建议)并使用OLS估计参数时,变量之间的多重共线性可能(显然)会出现,因此估计将是错误的。
...回归模型是传递函数模型的一种特殊情况,也称为动态回归模型或XARMAX模型。重点是在时间序列中进行模型识别,即适当的差异,适当的X滞后,适当的ARIMA结构,适当的未确定的确定性结构的识别,例如脉冲,水平移动,本地时间趋势,季节性脉冲和合并必须考虑参数变化或误差变化。
(我也在Autobox中阅读了他关于Box Jenkins vs LR的论文。)但这仍然不能解决我的问题(或者至少没有为我澄清RL和TS的不同机制)。
显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?我已经读过ARIMA是通过最大似然估计的,因此,如果使用ML而不是OLS估计带有滞后的LR,它是否会产生“正确”的系数(让我们假设还包括滞后误差项,例如阶次MA) q)。
简而言之,是OLS问题吗?应用ML是否解决了问题?