如果我们只对建模感兴趣,而对预测不感兴趣,则正则化功能会有所帮助吗?


19

如果我们仅对估计(和解释)模型参数感兴趣,而对预测或预测不感兴趣,则正则化功能会有所帮助吗?

如果您的目标是对新数据做出良好的预测,我将看到正则化/交叉验证非常有用。但是,如果您正在做传统经济学,而您所关心的只是估计呢?在这种情况下,交叉验证是否也有用?我在概念上遇到的困难是,我们实际上可以在测试数据上计算,但我们永远无法计算因为根据定义,从未观察到真实的。(假设存在一个真实的,即我们知道从中生成数据的模型族。)β大号ÿÿ^大号ββ^ββ

假设您的损失是。您将面临偏差方差的折衷,对吗?因此,从理论上讲,您最好进行一些正则化。但是,如何选择正则化参数呢?大号ββ^=β-β^

我很高兴看到一个线性回归模型的简单数值示例,其系数为ββ1个β2βķ,其中研究人员的损失函数为β-β^,或什至β1个-β^1个2。在实践中,如何在这些示例中使用交叉验证来改善预期损失?


编辑:约翰逊(DJohnson)将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf,与该问题相关。作者写道

机器学习技术...提供了一种预测\ hat {Y}的有条理的方法, ÿ^该方法(i)使用数据本身来决定如何进行偏差方差的权衡,并且(ii)可以搜索非常丰富的变量和函数形式。但是,一切都是有代价的:必须始终牢记,因为它们针对\ hat {Y}进行了调整,所以它们ÿ^ (在没有其他许多假设的情况下)不会为\ hat {\ beta}提供非常有用的保证β^

再次感谢DJohnson,这是另一篇相关论文:http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题:

将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是,基于交叉验证的正则化方法通常依赖于观察“基本事实”,即实际结果在交叉验证样本中。但是,如果我们的目标是最小化治疗效果的均方误差,则会遇到[11]所说的“因果推理的基本问题”:没有观察到因果关系的任何个体,因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。


2
交叉验证只是数据挖掘和机器学习工具包中的一种方法。机器学习在经济学中的应用日益广泛-请参阅位于斯坦福的苏珊·阿西(Susan Athey)的网站(她对将机器学习技术整合到经济学中很感兴趣)或本文由克莱因伯格(Kleinberg)等人撰写的《预测政策问题》Prediction Policy Problems),此处为无标题版本:cs。 cornell.edu/home/kleinber/aer15-prediction.pdf
Mike Hunter,

9
伙计们,请消除歧义:机器学习对许多人来说意味着机器学习,对其他许多人则表明最大的可能性。(定义:如果ML自动将自身翻译为机器学习,那么您将处于机器学习的一面。)
Nick Cox

3
@Aksakal我的经验是,传统的计量经济学(面向本科生和研究生)都对交叉验证几乎没有任何关注。看一下经典的教科书《林》。当然,也许在专门针对预测的课程中提到了交叉验证和偏方差的权衡,但是在所有学生开始的核心课程中却没有提到。听起来对吗?
阿德里安

2
@Adrian我看到人们投票结束这个问题过于广泛。可能是这样,但是正如我所看到的,您基本上是在问:“如果我们只对建模感兴趣,而对预测不感兴趣,CV会有所帮助吗?” -如果我对您的理解正确,则可以轻松地编辑和简化您的问题,因此问题更清楚,而且肯定不会太宽泛(甚至很有趣!)。
蒂姆

2
@Adrian,所以这是一个非常有趣的问题!恐怕您使它变得过于复杂,在这里对计量经济学的引用并不是至关重要的(因为使用统计方法的其他领域也是如此)。我鼓励您编辑问题以使其简化。
蒂姆

Answers:


2

是的,当我们想要偏低的方差估计时。我特别喜欢gung的文章,收缩方法可以解决什么问题?请允许我在这里粘贴龚的身影...

在此处输入图片说明 如果您查看了gung制作的图,您将会清楚为什么我们需要正则化/收缩。起初,我感到奇怪的是,为什么我们需要偏差估计?但是我看了一下那个图,我意识到,低方差模型具有很多优点:例如,在生产使用中它更“稳定”。


是的,但是如何选择正则化参数?当目标是最大程度地减少预测误差时,我们可以使用验证集。如果我们从不观察真实的模型参数,如何使用验证集?
阿德里安

请参阅我问题底部的有关“因果推理的基本问题”的报价。
阿德里安

1

如果我们仅对建模(即估计参数)感兴趣,而对预测不感兴趣,交叉验证会有所帮助吗?

是的,它可以。例如,前几天我在决策树中使用参数重要性估算。每次构建树时,我都会检查交叉验证错误。我会尽力减少错误,然后继续进行估计参数重要性的下一步。如果您构建的第一棵树很坏并且没有检查错误,则答案可能会不太准确(如果不是错误的话)。

我相信的主要原因是每种技术都有许多控制变量。即使一个控制变量的微小变化也会提供不同的结果。

检查交叉验证错误后如何改进模型?好吧,这取决于您的模型。希望经过几次尝试后,您将对最重要的控制变量有所了解,并可以对其进行操作以找到较小的误差。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.