如果我们仅对估计(和解释)模型参数感兴趣,而对预测或预测不感兴趣,则正则化功能会有所帮助吗?
如果您的目标是对新数据做出良好的预测,我将看到正则化/交叉验证非常有用。但是,如果您正在做传统经济学,而您所关心的只是估计呢?在这种情况下,交叉验证是否也有用?我在概念上遇到的困难是,我们实际上可以在测试数据上计算,但我们永远无法计算因为根据定义,从未观察到真实的。(假设存在一个真实的,即我们知道从中生成数据的模型族。)
假设您的损失是。您将面临偏差方差的折衷,对吗?因此,从理论上讲,您最好进行一些正则化。但是,如何选择正则化参数呢?
我很高兴看到一个线性回归模型的简单数值示例,其系数为,其中研究人员的损失函数为,或什至。在实践中,如何在这些示例中使用交叉验证来改善预期损失?
编辑:约翰逊(DJohnson)将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf,与该问题相关。作者写道
机器学习技术...提供了一种预测\ hat {Y}的有条理的方法, 该方法(i)使用数据本身来决定如何进行偏差方差的权衡,并且(ii)可以搜索非常丰富的变量和函数形式。但是,一切都是有代价的:必须始终牢记,因为它们针对\ hat {Y}进行了调整,所以它们 (在没有其他许多假设的情况下)不会为\ hat {\ beta}提供非常有用的保证。
再次感谢DJohnson,这是另一篇相关论文:http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题:
将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是,基于交叉验证的正则化方法通常依赖于观察“基本事实”,即实际结果在交叉验证样本中。但是,如果我们的目标是最小化治疗效果的均方误差,则会遇到[11]所说的“因果推理的基本问题”:没有观察到因果关系的任何个体,因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。