回归模型的定义和定界


13

一个令人尴尬的简单问题-但似乎之前尚未在Cross Validated上问过:

  1. 回归模型的定义是什么?

还有一个支持问题

  1. 什么不是回归模型?

关于后者,我对棘手的示例感兴趣,这些示例的答案不是立即显而易见的,例如ARIMA或GARCH。

Answers:


9

我想说的是,“回归模型”是一种元概念,因为您将找不到“回归模型”的定义,而是更具体的概念,例如“线性回归”,“非线性回归”, “稳健的回归”等等。这与数学中的方法相同,我们通常不定义“数字”,而是定义“自然数”,“整数”,“实数”,“ p-adic数”等等,如果有人希望包括数字中的四元数就这样吧!其实并不重要,重要的是您当前正在阅读的书/纸使用的定义是什么。

定义是工具,本质主义在讨论…… 的本质,一个词的真正含义,却很少值得。

那么,“回归模型”与其他统计模型又有什么区别呢?通常,存在一个响应变量,您希望将其建模为受一组预测变量影响(或确定)的变量。我们对影响另一个方向不感兴趣,并且对预测变量之间的关系也没有兴趣。通常,我们采用给定的预测变量,并将其视为模型中的常量,而不是随机变量。

上面提到的关系可以是线性或非线性的,以参数或非参数的方式指定,依此类推。

为了与其他模型区分开,当我们接受预测变量中的测量误差的可能性时,我们最好看看通常用来表示“回归模型”不同的其他词语,例如“变量误差”。这很可能包含在我上面对“回归模型”的描述中,但通常被视为替代模型。

此外,各个字段的含义可能有所不同,请参阅对回归变量进行条件处理与将其视为固定条件有什么区别?

重复一遍:重要的是您现在正在阅读的作者所使用的定义,而不是一些关于它“真正是”的形而上学。


1
我同意你的回答的实质。我的问题是由于遇到有关回归模型的陈述而引起的,这让我想知道该陈述真正适用于什么(不适用于什么)。当然,现在您可以说,“运用最佳判断并仔细检查细节”,但是有时我可能希望立即拒绝假设的说法,即一般而言这是不正确的(也许仅在特定情况下才是正确的) 。然后,我需要一个定义来引用。当然,在更多情况下,具有精确的定义是有用的。
理查德·哈迪

1
然后,您应该提出有关所遇到的用途的具体问题,并提供参考。
kjetil b halvorsen

2
我不想变得挑剔,但请考虑一下:有人问您您在做什么,您说“我正在使用回归模型进行分析/预测/测试(某事)”。-“什么是回归模型?” - (安静)。还是计量经济学入门课程中的一种情况:“教授,什么回归模型?” - (没有答案)。我认为这是很自然的问题,因此有一个答案将是很好的。
理查德·哈迪

2
是的,有一个答案会很好,但是我不确定所有人都可以同意一个规范的答案。从统计书(例如Seber:“线性回归分析”)到计量经济学中的文本,我得到了一个非常不同的回归概念。但是所有想法都可以达成共识。我想这确实是一个模型家族。然后,我们可以询问所有这些模型的共同核心是什么。
kjetil b halvorsen

1
也许您会对我的一个相关问题感兴趣:简单线性回归模型的定义
理查德·哈迪

7

已经给出了两个不错的答案,但是我想加两分钱。

在回归的情况下,我们有一些随机变量和。变量具有未知的分布和复杂的协方差结构。我们将这个问题简化为仅关注条件分布,或者更精确地关注给定其他变量的条件期望。我们将其简化为X 1X k YYX1,,XkY

μ=E(y|x1,,xk)=f(x1,,xk)

其中是预测变量的函数,根据特定的回归模型可以采用不同的形式(线性,非线性),而是根据广义线性模型考虑回归模型时某种分布的平均值。在GLM的可以是泊松,二项式,伽玛等分布的位置。对于正则化回归,它是Laplace分布的位置,为使Huber损失最小的鲁棒模型,使用了所谓的Huber密度。在四分位数回归的情况下,我们关注分布的其他特征,我们估计是分布的四分位数而不是期望值。μ μ 大号1 μfμμL1μ

因此,我们着眼于条件分布,而不是关注完全联合分布。这种简化是回归模型的关键特征。Y


谢谢。直觉并没有伤害,尽管我正在寻找一个更正式的定义,可以让我问问我的人,那么,回归模型到底是什么?然后尝试挑选细节。
理查德·哈迪

@RichardHardy我认为这是所有模型都共享的回归模型关键特征。

3
y

2

基于文献的一些想法:

F. Hayashi在他的经典研究生课本“ Econometrics”(2000年)的第1章中指出,以下假设构成了经典线性回归模型:

  1. 线性度
  2. 严格的外生性
  3. 无多重共线性
  4. 球面误差方差
  5. “固定”回归器

Wooldridge在他的经典计量经济学教材《计量经济学:一种现代方法》(2012年)的第2章中指出,以下等式定义了简单的线性回归模型:

y=β0+β1x+u.

格林在其流行的计量经济学教科书“计量经济学分析”(2011)的第2章中指出

经典的线性回归模型一组有关基本“数据生成过程”如何生成数据集的假设组成

随后给出了与林氏相似的假设清单。

关于OP对GARCH模型的兴趣,Bollerslev “广义自回归条件异方差”(1986)在第5部分的标题以及该部分的第一句中包括短语“ GARCH回归模型”。因此,GARCH模型之父不介意将GARCH称为回归模型。


1
Yf(X,β)

是的,我的例子是线性回归模型。这就是我能够在可靠的资源中找到的,例如这些被广泛使用并已成为经典的教科书。对于统计和计量经济学问题,我不太信任维基百科。无论如何,即使是在Wikipedia中,也有一章“基本假设”与我从教科书中引用的内容相似。关于另一篇文章,您能在这里发表评论的相关部分,以便我在那儿回应吗?在这篇文章中,我没有提及潜在变量模型,但很高兴听到您的意见。
理查德·哈迪

3
为什么说第3点“没有多重共线性”?我从未见过将其用作某种结果证明的假设!
kjetil b halvorsen

1
@kjetilbhalvorsen,请不要对我不是作者的教科书上的内容承担任何责任。但是,当然,感谢您的评论,甚至更多的答案!
理查德·哈迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.