为什么经济学研究人员对二元响应变量使用线性回归?


13

最近,我不得不阅读几篇经济学方面的论文(我不太熟悉这一领域)。我注意到的一件事是,即使响应变量是二进制的,使用OLS拟合的线性回归模型也无处不在。因此,我的问题是:

为什么在经济学领域,线性回归优于逻辑回归?这是简单的普遍做法,还是(在论文,教师等中)积极倡导的程序?

请注意,我并不是在问为什么将线性回归与二元响应一起使用可能不是一个好主意,或者是什么替代方法。相反,我问为什么人们在这种情况下使用线性回归,因为我知道这两个问题的答案。


5
你能举个例子吗?
Stephan Kolassa

7
这是不对的。经济学和计量经济学方面也有大量关于logit和probit及其相关模型的文献。我也是一个局外人,我无法轻易量化相对用途,但是文献足够大,足以驳斥“无处不在”(意思是无处不在!)。这里有一个问题,为什么根本不使用所谓的线性概率模型,我认为这种解释不需要深入或很难找到:它很容易理解,有时可以正常工作。
尼克·考克斯

3
经济学与数学之间只有非常随意的关系。我不会对此太担心。
Sycorax说恢复莫妮卡的时间

1
@Sycorax我也有类似的感觉。而且,如果一个人草率的数学,他/她仍然能够构建“有效”的东西。
Haitao Du

1
@Sycorax这既不正确也不公平。当然,说“您不会对此太担心”对这个问题是不负责任的。根据子领域的不同,经济学与数学和统计学之间的关系非常密切。只是经济学家经常关心因果推理,而碰巧还必须处理观察数据(就像许多社会科学一样)。这使得在不带来某种经济直觉的情况下,建立强大的数学严格度极为困难。
StAtS

Answers:


18

Dave Giles的计量经济学博客上的这篇博客文章主要概述了线性概率模型(LPM)的缺点

但是,他确实列出了研究人员选择使用它的简短原因列表

  • 它在计算上更简单。
  • 解释“边际效应”更容易。
  • 它避免了“链接功能”指定错误的风险。
  • 如果您具有内生的虚拟回归器,则Logit或Probit会有并发症。
  • LPM,Logit和Probit模型的估计边际效应通常非常相似,尤其是在样本量较大的情况下。

我不知道与logit或probit相比,LPM是最常用的,但是上述某些原因对我来说是明智的。


2
+1,感谢术语线性概率模型,我以前不知道。
Haitao Du

1
如果您有更多兴趣,可以在Angrist和Pischke撰写的“最无害的计量经济学”中对此进行详细介绍。
shf8888

2

阅读其他领域的论文时,我也有类似的问题。并问了很多与此有关的问题,例如教育数据挖掘社区中的这一问题: 为什么对概率使用平方损失而不是逻辑损失?

在这里,我将提出很多个人意见。


我觉得在许多实际用例中,损失函数没有太大关系。一些研究人员可能对平方损失有更多的了解,并建立了它的系统,它仍然可以正常工作并解决现实世界中的问题。研究人员可能永远都不知道逻辑损失或铰链损失,而是想尝试一下。此外,他们可能不希望找到最佳的数学模型,但希望解决从未有人尝试解决的实际问题。

这是另一个例子:如果您检查我的问题的答案,那么所有这些都差不多。在分类中选择不同的损失函数以近似0-1损失有什么影响


更多的想法:机器学习研究可能会花费大量时间来选择哪种模型以及如何优化模型。这是因为机器学习研究人员可能没有能力收集更多数据/获得更多度量。机器学习研究人员的工作是获得更好的数学,而不是更好地解决特定的现实世界问题。

另一方面,在现实世界中,如果数据更好,那就胜过一切。因此,选择神经网络或随机森林可能不会太大。所有这些模型都类似于一个人想要使用机器学习作为解决现实世界问题的工具。对开发数学或工具不感兴趣的人可能会花费更多时间使用特定领域的知识来使系统变得更好。

正如我在评论中提到的。而且,如果一个人草率的数学,他/她仍然能够建立起行之有效的东西。


1
(+1)这是很多“引号” hxd,它们传达什么意思?“作品”是指“他们认为它有用,但不起作用”还是“ sorta作品”?
马修·德鲁里

@MatthewDrury感谢您的评论。我觉得我有很多个人感受,不知道如何写下来。我认为其中许多不是正式的或过于主观的。这就是为什么我有很多报价。
海涛杜

我认为将它们标记为个人意见更为明确。这是我在课堂上与学生一起做的事情:“这与个人意见差不多,但支持向量机很烂”(不是一个真实的例子,否则……)
Matthew Drury

@MatthewDrury感谢您为我的写作提供建议,答案中没有引号!
海涛杜
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.