带有延迟和时间序列的多元线性回归之间的“机械”区别是什么?


14

我是商业和经济学专业的毕业生,目前正在攻读数据工程硕士学位。在研究线性回归(LR)然后进行时间序列分析(TS)时,我想到了一个问题。为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?所以老师建议我写一篇关于这个问题的文章。我不会徒劳地寻求帮助,所以我做了关于该主题的研究。

我已经知道使用LR时,如果违反了高斯-马尔可夫假设,则OLS回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(与此有关的另一个问题是,一个通用汽车假设是自变量应该是正态分布的?还是仅以自变量为条件的因变量?)

我也知道,当使用分布式滞后回归(这是我在这里提出的建议)并使用OLS估计参数时,变量之间的多重共线性可能(显然)会出现,因此估计将是错误的。

关于TS和LR类似帖子中,@ IrishStat说:

...回归模型是传递函数模型的一种特殊情况,也称为动态回归模型或XARMAX模型。重点是在时间序列中进行模型识别,即适当的差异,适当的X滞后,适当的ARIMA结构,适当的未确定的确定性结构的识别,例如脉冲,水平移动,本地时间趋势,季节性脉冲和合并必须考虑参数变化或误差变化

(我也在Autobox中阅读了他关于Box Jenkins vs LR的论文。)但这仍然不能解决我的问题(或者至少没有为我澄清RL和TS的不同机制)。

显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?我已经读过ARIMA是通过最大似然估计的,因此,如果使用ML而不是OLS估计带有滞后的LR,它是否会产生“正确”的系数(让我们假设还包括滞后误差项,例如阶次MA) q)。

简而言之,是OLS问题吗?应用ML是否解决了问题?


4
与约翰·梅纳德·凯恩斯的模样相似。
尼克·考克斯

@NickCox大家好,是的,他是我最喜欢的经济学家,我认为他是一个了不起的人,并且在许多方面都非常有才华。。。我要弄清楚的是,为什么滞后模型不能与OLS估计一起使用,以及它是否可以使用最大似然估计正确估计。我知道最好的模型是传递函数,目前正在研究中。但是关于OLS的理论问题仍然存在。如果不存在自相关,则导致滞后现象消除(也假设不存在multicoll。),它将起作用吗?还是仍然存在且底层存在
Miguel M.

@NickCox ...影响/违反了OLS无法使用且无法使用此方法的高斯假设吗?如您所见,我对此感到有些迷惑,如果回答时间太长,请提供一些启发性的演讲,我也将不胜感激
Miguel M.

1
在力学方面,我建议用户建议的ARMA模型(适当差分)X变量反映出非平稳性。产生建议的滞后结构(理解)。然后,可以将这种滞后结构应用于适当差分的原始序列,以产生有关未指定/背景序列的建议(暂时误差过程)。然后可以研究此错误过程以产生适当的ARMA。
IrishStat 2015年

@IrishStat,所以请让我改一下您刚才说的内容。让我们有因变量Yt和自变量Xt,对Yt和Xt求差,直到两者都保持平稳,然后可以应用互相关函数找出滞后结构。之后,我们将Yt回归到Xt,然后研究误差项。如果我们在误差项中找到ARMA结构,则将其应用到模型中,直到出现白噪声,对吗?但是,我的问题仍然是,是否通过OLS拟合了最后一个模型?如果没有,为什么不这样做,我们将使用哪种方法?
Miguel M.

Answers:


9

为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?

β^OLS=(XX)1XyX,因此OLS估算器不可行。

通用汽车的一种假设是自变量应该正态分布?还是仅仅以独立变量为条件的因变量?

有时会为模型错误而不是自变量调用正态性假设。但是,既不需要OLS估计量的一致性和效率,也不需要保持高斯-马尔可夫定理的正态性。维基百科有关高斯-马尔可夫定理的文章明确指出“错误不一定是正常的”。

变量之间的多重共线性可能(很明显)出现,因此估计将是错误的。

高度的多重共线性意味着OLS估计量的方差膨胀。但是,只要多重共线性不是完美的,OLS估计量仍为蓝色。因此,您的陈述看起来不正确。

显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?

可以使用OLS和ML来估计AR模型;这两种方法都给出了一致的估计量。OLS无法估计MA和ARMA模型,因此ML是主要选择。再次,这是一致的。另一个有趣的特性是效率,在这里我不确定(但显然该信息应该在某个地方可用,因为这个问题很标准)。我会尝试评论“正确性”,但我不确定您的意思。


嗨,哈迪先生,非常感谢您的回答。关于观察值与非观察值,仅作总结。在ARIMA和时间序列(更具体地说是XARIMAX)中,我们采用“动态”方法,因为我们使用了预测误差,而在线性回归中,我们不使用它们-但是我们仍然可以使用它们。我不明白这里的问题。还是正如@IrishStat所说,唯一的区别是识别和模型修订策略的路径?
Miguel M.

关于估计,当在模型中包含滞后误差时,OLS(还是)正确吗?关于多重共线性,我的意思是估计的系数可能不正确,因为它们的估计差异很大。通过正确的方法,我的意思是,当使用建议的滞后模型时,与ML相比,如果使用OLS可以给出无偏和有效的估计。
Miguel M.

@MiguelM,我现在正在旅行,我将尽力稍后再回来。
理查德·哈迪

1
关于“在线性回归中,我们不使用它们-但仍然可以使用它们”:我们没有观察到这些变量,因此由于存在这种机制,因此无法在线性回归框架中使用它们(如我在答案中指出的那样,估算者是不可行的);但是,它们可以在ARIMA框架中使用。关于“在模型中包括滞后误差时,OLS(还是)正确吗?”,是的,这应该是正确的。关于“正确性”,如果正确指定了模型并且OLS和ML均可行,则两者都应正常工作。在错误指定的情况下,事情往往会出错。
理查德·哈迪

1
y=β0+β1x+εxy=β0+β1x+εx

5

这是一个很好的问题。ARIMA模型与多元线性回归之间的真正区别在于您的错误结构。您可以在多元线性回归模型中操作自变量,以使它们适合您的时间序列数据,这就是@IrishStat所说的。但是,此后,您需要将ARIMA错误合并到多元回归模型中,以获得正确的系数和测试结果。一本很棒的免费书籍是:https : //www.otexts.org/fpp/9/1。我已经链接了讨论结合ARIMA和多个回归模型的部分。


1

很好的问题,我实际上已经在日常工作中建立了数据科学家的身份。时间序列模型易于构建(R中的预测包使您可以在5秒钟内构建更少的模型),与回归模型相同或更准确,等等。通常,应该始终构建时间序列,然后进行回归。时间序列也有哲学上的含义,如果您可以在不了解任何知识的情况下进行预测,那意味着什么?

我对达灵顿的看法。1)“回归更加灵活和强大,可以产生更好的模型。这一点在整个工作中的许多地方都得到了发展。”

不,恰恰相反。回归模型比时间序列模型有更多的假设。假设越少,承受地震(体制变化)的可能性就越大。此外,时间序列模型对突发变化的响应速度更快。

2)“回归分析比ARIMA容易掌握得多,至少对于已经熟悉在其他领域使用回归分析的人而言。” 这是循环推理。

3)“回归使用了一种“封闭”的计算算法,该算法基本上保证在可能的情况下都能产生结果,而ARIMA和许多其他方法使用的迭代算法通常无法解决问题。我经常看到ARIMA方法“挂断了“对于没有给出回归方法的数据。”

回归给您答案,但这是正确的答案吗?如果我建立线性回归和机器学习模型,并且它们都得出相同的结论,那意味着什么?

因此,总而言之,是的,回归和时间序列都可以回答相同的问题,从技术上讲,时间序列在技术上是回归(尽管是自回归)。时间序列模型不那么复杂,因此比回归模型更健壮。如果您考虑专业化,那么TS模型会专注于预测,而回归模型会专注于理解。归结为您要解释还是预测。


1
“时间序列模型不那么复杂,因此比回归模型更健壮” ....您要说的是“ ARIMA模型不那么复杂,因此比回归模型更健壮”。合并ARIMA和回归的方法称为传递函数模型...这是明智的选择,因此将理解(回归)和未知/不确定的背景因素(ARIMA)结合在一起。
IrishStat

2
@IrishStat嗨,赖利先生,我一直在阅读您对stackexchange中的几篇文章的回答,并且我还阅读了Autobox中的许多论文以及PSU时间序列课程的链接,但我仍然没有了解为什么(或是否)(使用OLS)线性回归(使用OLS),并在必要时使用滞后变量和滞后误差项
Miguel

@IrishStat是OLS方法不起作用吗?
Miguel M.

1
IrishStat会根据您的观点进行扩展,目标是格兰杰因果关系。例如,即使系数在统计上是重要的,在提高预测准确性方面也不一定是重要的。在我的研究中,我发现回归模型(线性模型,套索模型等)倾向于说事物比实际要重要,而随机森林倾向于降级它们并找出真正的杠杆。此外,随机森林的样本外准确性与线性模型相同。唯一的缺点是您无法确定实际的系数是多少。
隐藏的马尔可夫模型

2
@MiguelM。因为传递函数是多项式分布式滞后模型,所以可能会起作用,因为它可能包括根据经验检测到的水平变化/时间趋势/季节脉冲,同时调整脉冲(一次异常),我认为主要区别在于识别和模型修订策略的途径
IrishStat'1

0

在认为传递函数和乘法线性回归(通常使用)之间最深的区别在于它们的目标时,多重回归的目的是找到因变量的主要因果可观察决定因素,而传递函数只是想预测对因变量的影响总而言之,多元回归是针对详尽的解释,而传递函数是为了预测非常具体的影响...


我认为这不是很准确,因为这两种方法都可以得出实际上可以解释的系数。另外,传递函数确实非常依赖因果分析,实际上,与多元线性回归相比,传递函数更擅长区分。另外,该帖子还要求这两种方法之间的机械/方法学差异
Miguel M.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.