编辑:自从发布此帖子以来,我在这里还跟了一个额外的帖子。
以下是本文的摘要:我正在研究一个模型,并尝试了线性回归,Box Cox变换和GAM,但并没有取得太大进展
R
目前,我正在使用模型来预测大联盟(MLB)级别的小联盟棒球运动员的成功。因变量,进攻职业生涯胜过替补球员(oWAR),是美国职业棒球大联盟(MLB)级别成功的代名词,用球员在其职业生涯中参与的每场比赛的进攻贡献总和来衡量(详细信息此处-http ://www.fangraphs.com/library/misc/war/)。自变量是z得分的小联盟进攻变量,用于统计数据,被认为是在大联盟级别取得成功的重要预测指标,包括年龄(年轻球员的成功率更高,他们的前景更好),淘汰率[SOPct ],步行率[BBrate]和调整后的产量(进攻性产品的全球量度)。另外,由于次要联赛有多个级别,因此我为次要联赛的比赛水平提供了虚拟变量(双A,高A,低A,新秀和短赛季,三A [主要联赛之前的最高水平]作为参考变量])。注意:我已经将WAR重新缩放为一个从0到1的变量。
变量散点图如下:
作为参考,因变量oWAR具有以下图表:
我从线性回归开始,oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
获得了以下诊断图:
存在明显的问题,即缺乏残差的无偏性和缺乏随机变化。此外,残差不正常。回归结果如下所示:
遵循上一个线程中的建议,我尝试了Box-Cox转换,但没有成功。接下来,我尝试了带有日志链接的GAM,并收到了以下图表:
原版的
新的诊断图
样条曲线似乎有助于拟合数据,但诊断图仍显示拟合差。编辑:我以为我原来是在看残差与拟合值,但我不正确。最初显示的图被标记为“原始”(上方),我后来上传的图被标记为“新诊断图”(也在上方)
的 模型的数量增加了
但是该命令产生的结果gam.check(myregression, k.rep = 1000)
并不令人满意。
谁能建议该模型的下一步?我很高兴提供您认为可能对理解我到目前为止所取得的进步有用的任何其他信息。感谢您的任何帮助,您可以提供。