最近,我不得不阅读几篇经济学方面的论文(我不太熟悉这一领域)。我注意到的一件事是,即使响应变量是二进制的,使用OLS拟合的线性回归模型也无处不在。因此,我的问题是:
为什么在经济学领域,线性回归优于逻辑回归?这是简单的普遍做法,还是(在论文,教师等中)积极倡导的程序?
请注意,我并不是在问为什么将线性回归与二元响应一起使用可能不是一个好主意,或者是什么替代方法。相反,我问为什么人们在这种情况下使用线性回归,因为我知道这两个问题的答案。
最近,我不得不阅读几篇经济学方面的论文(我不太熟悉这一领域)。我注意到的一件事是,即使响应变量是二进制的,使用OLS拟合的线性回归模型也无处不在。因此,我的问题是:
为什么在经济学领域,线性回归优于逻辑回归?这是简单的普遍做法,还是(在论文,教师等中)积极倡导的程序?
请注意,我并不是在问为什么将线性回归与二元响应一起使用可能不是一个好主意,或者是什么替代方法。相反,我问为什么人们在这种情况下使用线性回归,因为我知道这两个问题的答案。
Answers:
Dave Giles的计量经济学博客上的这篇博客文章主要概述了线性概率模型(LPM)的缺点。
但是,他确实列出了研究人员选择使用它的简短原因列表:
我不知道与logit或probit相比,LPM是最常用的,但是上述某些原因对我来说是明智的。
阅读其他领域的论文时,我也有类似的问题。并问了很多与此有关的问题,例如教育数据挖掘社区中的这一问题: 为什么对概率使用平方损失而不是逻辑损失?
在这里,我将提出很多个人意见。
我觉得在许多实际用例中,损失函数没有太大关系。一些研究人员可能对平方损失有更多的了解,并建立了它的系统,它仍然可以正常工作并解决现实世界中的问题。研究人员可能永远都不知道逻辑损失或铰链损失,而是想尝试一下。此外,他们可能不希望找到最佳的数学模型,但希望解决从未有人尝试解决的实际问题。
这是另一个例子:如果您检查我的问题的答案,那么所有这些都差不多。在分类中选择不同的损失函数以近似0-1损失有什么影响
更多的想法:机器学习研究可能会花费大量时间来选择哪种模型以及如何优化模型。这是因为机器学习研究人员可能没有能力收集更多数据/获得更多度量。机器学习研究人员的工作是获得更好的数学,而不是更好地解决特定的现实世界问题。
另一方面,在现实世界中,如果数据更好,那就胜过一切。因此,选择神经网络或随机森林可能不会太大。所有这些模型都类似于一个人想要使用机器学习作为解决现实世界问题的工具。对开发数学或工具不感兴趣的人可能会花费更多时间使用特定领域的知识来使系统变得更好。
正如我在评论中提到的。而且,如果一个人草率的数学,他/她仍然能够建立起行之有效的东西。