测量击中本垒打的均值回归


11

棒球之后的任何人都可能听说过多伦多何塞·包蒂斯塔(Jose Bautista)的MVP型表现。在之前的四年中,他每个赛季打出大约15次本垒打。去年他达到了54岁,在棒球历史上仅次于12位球员。

在2010年,他的薪水为240万,他要向车队索取2011年的1050万。他们出价760万。如果他能在2011年再次重申这一点,那么他将很容易获得这两个值。但是他重复的几率是多少?我们能期望他回归到平均水平有多难?我们可以预期他有多少表现是偶然的?我们可以预期他的2010年调整后的均值回归是什么?我该如何解决?

我一直在研究拉曼棒球数据库,并提出了一个查询,该查询返回前五个赛季中所有至少拥有50支蝙蝠的球员的本垒打总数。

表格看起来像这样(第10行中的Jose Jose Bautista注意)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

完整的结果(232行)可在此处获得

我真的不知道从哪里开始。谁能指出我正确的方向?一些相关的理论以及R命令将特别有用。

谢谢

汤米

注意:该示例有些虚构。本垒打绝对不是衡量球员身价的最佳指标,本垒打总数没有考虑击球手每个赛季都有机会击打本垒打的机会(板面)。这也没有反映出一些球员在更有利的球场上比赛,联盟的平均本垒打逐年变化。等等如果我能掌握将均值回归的背后理论,那么我可以将其用于比HR更合适的度量。


2
棒球是许多美国统计学家最喜欢的示例来源,因此Google(学者)搜索将显示几篇相关文章,例如Morrison和Schmittlein(1981)jstor.org/stable/2630890。我将它留给对棒球和R更为熟悉的人来回答您的问题。
一站式

1
我还建议您查看JC Bradbury及其博客Sabernomics,sabernomics.com/sabernomics的工作。他有关衡量球员价值的书可能会洞悉哪些特征可以预测未来的生产力。
Andy W

2
所陈述的问题有点像离群值问题,但不是以通常的方式想到离群值。要合并惊人的结果(即离群值),您需要有一个带有粗尾的“采样分布”(Jose的结果与过去数据的平均值相差3个标准差),因此这可能有助于更好地拟合数据,并且在预测中占它。
概率

如果除了这里显示的所有更复杂的注释之外,如果您还考虑了一条粗略的捷径,那么可以对Dixon的离群值进行测试,该样本可以对小至4的样本执行。请参见cee.vt.edu/ewr/environmental/teach/smprimer / outlier /…
rolando2 2011年

Answers:


3

我认为肯定存在贝叶斯收缩或先验校正可以帮助预测,但您可能还需要考虑另一种方法...

回顾历史上的球员,而不仅仅是最近几年,他们在几个大满贯比赛之后都经历了突破性的赛季(戏剧性增长了2倍),然后看看他们在接下来的一年中的表现如何。正确的预测指标可能会维持性能。

有多种方法可以解决此问题,但正如mpiktas所说,您将需要更多数据。如果您只想处理最近的数据,那么您将不得不查看整个联盟的统计数据,他所面对的投手,这是一个复杂的问题。

然后,只需考虑包蒂斯塔自己的数据。是的,那是他最好的一年,但这也是他自2007年以来第一次拥有350多个AB(569)。您可能要考虑转换性能提高的百分比。


3

可以单独将模型拟合到此数据,并通过使用混合(多级)模型获得将均值回归的预测。这些模型的预测说明了均值的回归。即使对棒球一无所知,我也找不到令人难以置信的结果,因为正如您所说,该模型确实需要考虑其他因素,例如板的外观。

我认为Poisson混合效应模型比线性混合模型更适合,因为本垒打的数量是一个重要因素。查看您提供数据,直方图hr显示该数据强烈正偏,这表明线性混合模型不能很好地工作,并且包括相当多的零,且有或没有先进行对数转换。

这是一些使用lme4包中的lmer函数的代码。创建了一个ID变量以识别每个玩家并将数据重塑为“长”格式(如他的答案中所示的mpiktas),(我在Stata中这样做是因为我不擅长R中的数据管理,但您可以在电子表格包):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

这适合具有对数链接的模型,该模型给出了命中率与年份的指数依赖关系,允许玩家之间有所不同。其他链接功能也是可能的,尽管由于负拟合值导致身份链接出现错误。sqrt链接可以正常工作,并且比具有log链接的模型具有更低的BIC和AIC,因此可能更合适。对2011年命中率的预测对所选链接功能敏感,特别是对于包蒂斯塔(Bautista)这样的玩家,其命中率最近发生了很大变化。

恐怕我还没有真正得出这样的预测lme4。我对Stata较为熟悉,它很容易获得对结果缺少值的观测值的预测,尽管xtmelogit似乎没有提供除log以外的任何链接功能选择,这为Bautista的预测为50本垒打在2011年。正如我所说,我认为这并不令人信服。我将不胜感激,有人可以展示如何根据上述lmer模型生成2011年的预测。

诸如AR(1)之类的针对玩家级别错误的自回归模型也可能很有趣,但是我不知道如何将这种结构与Poisson混合模型结合起来。


使用包装重塑中的功能melt,转换为长格式是R,melt(data,id = 1:2)中的一行。
mpiktas,2011年

对此的一个有趣扩展/替代方法是使用具有采样率参数(每年1个费率)的Possion采样分布,但对费率参数(而不是正常或正常混合物)使用柯西采样分布来拟合层次模型。柯西分布将允许发生极端事件(通过采样较大的速率参数)。t分布是中间情况(在正态和柯西之间)。(Cauchy可以使用逆CDF方法,因此更易于采样)。
概率

2

您需要掌握本垒打数据的时间范围内有关球员及其特征的其他数据。第一步,添加一些随时间变化的特征,例如玩家年龄或经验。然后,您可以使用HLM或面板数据模型。您将需要准备以下形式的数据:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

这样,最简单的模型将是(函数lme来自软件包nlme

lme(HR~Experience,random=~Experience|Year,data=your_data)

该模型将在很大程度上取决于以下假设:每个球员的本垒打数字仅取决于经验,并具有一定的可变性。它可能不是很准确,但是至少您会感觉到Jose Bautista的数字与普通玩家相比不太可能。可以通过添加其他玩家的特征来进一步改进此模型。


我不会说@TMOD 需要更多数据,只是如果@TMOD 更多数据,则预测可能会更准确。问题中有足够的信息来生成预测。
概率

@probabilityislogic,是的,有足够的信息来生成预测,但是模型只有截距。
mpiktas 2011年

不一定,可以将AR(1)或AR(2)模型拟合到此数据
概率

@probabilityislogic,是的,您是对的。
mpiktas

2

您可能想查看The Book Blog。

汤姆·坦戈(Tom Tango)和其他“书:打棒球的人”一书的作者可能是那里的测针技术的最佳来源。特别是,他们喜欢回归均值。他们提出了一个预测系统,该系统被设计为最基本的可接受系统(Marcel),并且几乎完全依赖于均值回归。

我想,一种方法是使用这样的预测来估计真正的才能,然后围绕那个平均才能找到合适的分布。一旦有了这些,每个板块的外观都会像伯努利试验一样,因此二项式分布可以带您完成其余的过程。


1

仅供参考,从2011年到2014年,他的战绩分别为43、27、28和35。

这非常接近他的162场比赛的平均值32(当然也包括那些值),并且在2010年的54下比标准杆差了大约1 SD。

看起来像是对均值的回归:极端群体通过利用嘈杂的主体(在本例中为1)而偶然偏离了其均值。

http://www.baseball-reference.com/players/b/bautijo02.shtml

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.