高级回归建模示例


22

我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。

我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。

编辑

到目前为止,我收集了以下资源:

  • 回归建模策略,F。Harrell
  • 应用计量经济学时间序列,W。恩德斯
  • 具有R,G. Petris的动态线性模型
  • 应用回归分析,D。Kleinbaum
  • 统计学习概论,G。James / D。维滕

我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。

还有对CV呈现一个具有挑战性的回归情况下,好的职位。


8
我相信Frank Harrells的书(amazon.com/…)可能会有所帮助。
亚当·罗宾逊2014年

@AdamRobinsson我看到TOC正在触及几个相关主题(多元模型,样条曲线,多重共线性),但是这些示例方法是在实际示例中一起说明的还是每个主题分别进行了说明?因为通常在现实生活中,所有问题都伴随着您,如何妥善处理这些问题从来都不是显而易见的。
罗伯特·库布里克

1
我还没有读完整本书,但是前150页绝对很棒(我不是静态主义者,只是一个狂热者)。例子是广泛的和详尽的。本书随附R的RMS(回归建模策略)软件包。我也看过David Kleinbaums的竞争书籍(不幸的是,标题被遗忘了),但是其中包含的策略和示例要少得多(而且价格昂贵两倍)。
亚当·罗宾逊2014年

3
@RobertKubrick:“多元回归”意味着响应不只一个(请参阅Wiki中添加的标签,或在此处)。“多重回归”是指具有多个预测变量。
Scortchi-恢复莫妮卡

3
您可能想查看Enders的“应用计量经济时间序列”。新版本将在本书结尾处涵盖非线性模型。几乎所有数据都可以在圣路易斯联储网站上公开获得(可通过R中的quantmod访问),因此您可以按照实际示例进行操作。带R的动态线性模型也提供了一些带有真实数据的示例,这些示例相当不错。
埃里克·布雷迪

Answers:


10

别人已经提到的回归建模策略和ISLR是两个很好的建议。我还有其他一些您可能要考虑的问题。

Kuhn和Johnson的Applied Predictive Modeling应用了许多很好的案例研究,并且非常动手。

带有R的实用数据科学在其应用程序的上下文中对待实用(回归)建模多数情况下将其视为业务情况下的预测模型。-

广义可加模型: Simon Wood撰写的R简介很好地论述了广义可加模型以及如何使用他mgcv的R软件包对其进行拟合。它确实包含一些不平凡的实际示例。GAM模型的使用是解决“正确”变换的一种替代方法,因为这是通过样条展开和损失最大似然估计以数据自适应方式完成的。但是,仍然需要进行其他选择,例如链接功能的选择。

R 的mboost软件包也适合GAM模型,但通过增强使用了不同的方法。我推荐该软件包的教程(小插图之一)。

我还将提到Hendry和Doornik的经验模型发现和理论评估,尽管我自己还没有读过这本书。它被推荐给我。


应用预测建模...一般。我更喜欢ISLR。
罗伯特·库布里克

5

您可以找到有关高级,多元,复杂(包括非线性)回归的最佳课程材料之一,该书基于Frank E. Harrell Jr撰写的《回归建模策略》。

正在评论中讨论这本书,但不讨论此材料,它本身就是一个很好的资源。


2

我会推荐Joshua D. Angrist和Jörn-SteffenPischke 所著的《几乎无害计量经济学》一书

这是最真实的世界,我拥有的文本,它非常便宜,大约26.00美元。这本书是为研究生统计学家/经济学家写的,因此非常先进。

现在,这本书并不是您所要求的,因为它不像内生性,解释和巧妙的回归设计那样关注核心复杂的“复杂,多重非线性关系”。

但是我提供这本书是为了试图阐明这一点。也就是说,在现实世界中使用回归分析时,最具挑战性的问题通常与我们的模型不够复杂有关……相信我,我们非常擅长于复杂楷模!相反,最大的问题是

  1. 内生性
  2. 没有我们需要的所有数据
  3. 拥有大量数据……这真是一团糟!
  4. 对于许多人来说,无法正确解释自己的模型(随着我们使模型变得更加复杂,这个问题变得越来越普遍

对GMM,非线性过滤器和非参数回归的深入了解几乎涵盖了您列出的所有主题,并且可以在学习过程中不断学习。但是,使用现实世界的数据,这些框架可能会变得不必要地复杂,而且通常是有害的。

通常,聪明的简单而不是完全概括和高度复杂的能力使您在现实世界中的分析中受益最大。这本书将对您有所帮助。



1

我不确定您的问题的目的是什么。我可以推荐格林的计量经济学分析文本。它里面有大量的参考文献。本书中的每个示例几乎都引用了已发表的论文。

要使您有品味,请参阅第195页上的示例7.6“对数线性模型中的交互作用”。它涉及论文和数据集:Regina T. Riphahn,Achim Wambach和Andreas Million,“ 卫生保健需求中的激励效应:双变量面板计数数据估计 ”,《应用计量经济学》杂志,第1卷。18,第4号,2003年,第387-405页。

这个例子是关于对数线性模型的使用和相互作用的影响。您可以阅读全文或本教科书中的说明。这不是一个用例。这是一项真正的公开研究。这就是人们在经济学研究中实际使用统计方法的方式。

当我写这本书时,就用高级统计方法的用法来纠缠这样的用例。


0

您是否看过Ruey Tsay(UChicago)撰写的《金融时间序列分析》课程/书?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Ruey Tsays的课程和教科书在Finance中提供了多个现实世界中的示例,这些示例是针对金融市场使用的复杂回归类型的。第1章从多因素回归模型开始,到第5或6章扩展到季节性自回归时间序列模型。


2
是的,我做到了,一点都不喜欢。它的广度非常广泛(从波动率模型到高频到ARIMA等等),轻轻地触摸每个主题(手头上这么多的主题怎么不可能),并且R的研究和挑战都降到了最低。这是对学术论文和已经陈述过的理论/模型的重新演绎,您可以在其他地方找到。这正是我所说的学校案例,它从来没有处理现实世界中高级问题中多重挑战的复杂性。
罗伯特·库布里克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.