回归平均谜题


9

在丹尼尔·卡尼曼(Daniel Kahneman)的“思考,快速和慢速”的“回归均值”一章中,给出了一个示例,并要求读者根据整体销售预测和上一年的销售数量来预测各个商店的销售。例如(这本书的示例有4家商店,为简单起见,我在这里使用2家):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

天真的预测是商店1和2分别为110和550,每个商店增加10%。但是,作者声称这种幼稚的方法是错误的。绩效较差的商店更有可能增加10%以上,而绩效较好的商店则增加(甚至减少)少于10%。因此,预测115(增加15%)和535(增加7%)将比幼稚的预测“更正确”。

我不明白的是,我们如何得出结论,商店1的销售额为100必然是表现较差的商店?也许由于位置差异,商店1和2的真实时间序列平均值是10和550,商店1在2011年是超级年份,商店2在2011年是灾难性年份。那么这没有道理吗预测商店1的减少和商店2的增加?

我知道原始示例中未提供时间序列信息,但我的印象是“均值回归”是指横截面均值,因此时间序列信息并不重要。我有什么误会?

Answers:


8

我碰巧正在看那本书。您尚未充分转录关键信息。它说:“所有商店的规模和商品选择都相似,但由于地理位置,竞争和随机因素,它们的销售额有所不同。” 那是关键,尤其是最后一点。随机因素对于回归均值是必不可少的(如果销售额增长了固定量,那么10%的收益平均分配给各个商店将是正确的)。


2
您是说“所有商店都相似”的假设意味着它们的时间序列均值相同吗?否则,两个相同的商店由于位置的不同,仍然可能有非常不同的方式。

1
我承认这不是问题的最好用词,但比起您最初的问题时要清楚得多。
彼得·弗洛姆

2

由于数据点太少,答案几乎完全由先验(或隐含的等效条件)决定。如果作者以前已经看过很多此类数据,那么基于他们过去的观察,他们很可能有充分的理由认为他们的答案更有可能是正确的。我认为这是对均值回归的示例,这是可以理解的,至少在没有指定更多信息的情况下。例如,商店是否在可比较的位置?如果它们是相同的,并且商店之间没有其他明显的区别,那么我们可能会认为它们是可比总体的一部分是合理的,我们可以考虑回归均值。如果商店之间存在明显的差异,可以解释销售额的系统差异,那么这样做就不那么明智了。


0

我认为更好的(假设的)插图可能是这样的:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

除非有系统的原因,否则我们希望表现最差的人(由于随机原因)不会再这样。因此,对于表现最佳的人也是如此。

因此,如果平均增长率为10%,我希望#1的表现要好于110,#6的表现要差于330。

我觉得最难的部分是假设。恕我直言,非常罕见的是,落后者实际上只是一个偶然的fl幸,而不是一些潜在的异质性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.