棒球之后的任何人都可能听说过多伦多何塞·包蒂斯塔(Jose Bautista)的MVP型表现。在之前的四年中,他每个赛季打出大约15次本垒打。去年他达到了54岁,在棒球历史上仅次于12位球员。
在2010年,他的薪水为240万,他要向车队索取2011年的1050万。他们出价760万。如果他能在2011年再次重申这一点,那么他将很容易获得这两个值。但是他重复的几率是多少?我们能期望他回归到平均水平有多难?我们可以预期他有多少表现是偶然的?我们可以预期他的2010年调整后的均值回归是什么?我该如何解决?
我一直在研究拉曼棒球数据库,并提出了一个查询,该查询返回前五个赛季中所有至少拥有50支蝙蝠的球员的本垒打总数。
表格看起来像这样(第10行中的Jose Jose Bautista注意)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
完整的结果(232行)可在此处获得。
我真的不知道从哪里开始。谁能指出我正确的方向?一些相关的理论以及R命令将特别有用。
谢谢
汤米
注意:该示例有些虚构。本垒打绝对不是衡量球员身价的最佳指标,本垒打总数没有考虑击球手每个赛季都有机会击打本垒打的机会(板面)。这也没有反映出一些球员在更有利的球场上比赛,联盟的平均本垒打逐年变化。等等如果我能掌握将均值回归的背后理论,那么我可以将其用于比HR更合适的度量。