最小化解释模型中的偏见,为什么?(Galit Shmueli的“解释或预测”)


15

这个问题参考了Galit Shmueli的论文“解释或预测”

具体而言,Shmueli教授在1.5节“解释和预测不同”中写道:

在解释性建模中,重点是最小化偏差以获得最准确的基础理论表示。

每当我读这篇论文时,这都会使我感到困惑。从什么意义上说,最小化估计偏差可以最准确地表示基础理论吗?

我还在这里观看了Shmueli教授在2017年JMP探索峰会上的演讲,她说:

...像收缩模型,集合体之类的东西,您将永远不会看到它们。因为这些模型通过设计引入了偏差,以减少总体偏差/方差。这就是为什么他们不在那里的原因,这样做没有任何理论意义。您为什么要使模型有目的地偏见?

这并不能真正阐明我的问题,只是重申我不理解的说法。

如果理论有很多参数,而我们没有足够的数据来估计它们,那么估计误差将由方差决定。为什么在这种情况下使用像岭回归这样的有偏估计程序(导致较低方差的有偏估计)是不合适的?



@Adrian这是一个很好的问题,问得好。我也希望看到一个完整的答案!
马修·德鲁里

Answers:


6

这确实是一个很好的问题,需要环游世界计量经济学和社会科学研究中的统计模型的使用(据我所见,从事描述性或预测性工作的应用统计学家和数据挖掘者通常不会处理这种形式的偏见)。我在本文中使用的“偏见”一词是计量经济学家和社会科学家认为的一种严重危险,无法从实证研究中推断因果关系。它指的是您的统计模型与基于该模型的因果理论模型之间差异。一个相关的术语是“模型规范”,这是计量经济学中经常被讲授的一个主题,因为当目标是因果关系时,“正确指定回归模型”(相对于理论而言)非常重要。看到有关规范的Wikipedia文章进行了简要说明。一个主要的规格问题是规格不足,称为“遗漏变量偏差”(OVB),在该变量中,您应该从回归中省略应该存在的解释变量(根据理论)-该变量与因变量相关,并且具有至少一个解释变量。请参阅这个简洁的说明,它解释了这种类型的偏见的含义。从理论上讲,OVB会损害您从模型推断因果关系的能力。

在我的论文附录中是要解释还是要预测?有一个示例显示了未指定的(“错误的”)模型有时可能具有更高的预测能力。但是现在希望您可以看到为什么这与“良好因果解释模型”的目标相矛盾。


2
我认为关于预测模型和解释模型仍然存在很多困惑。我采访了一家大型保险公司的数据科学家,问他们是否在他的团队中建立了预测或解释模型。他说“没关系”-我不认为他知道区别。
RobertF
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.