逻辑回归和数据集结构


17

我希望我能以正确的方式问这个问题。我可以访问逐个播放的数据,因此,最好的方法和正确构建数据的问题更多。

我要做的是根据给定的分数和时间来计算赢得NHL比赛的概率。我认为我可以使用逻辑回归,但不确定数据集的外观。在我感兴趣的每场比赛中,每场比赛我都会有多个观察结果吗?我会每场比赛进行一次观察并在每个时间段内使用单独的模型吗?逻辑回归甚至是正确的方法吗?

您能提供的任何帮助将不胜感激!

最好的祝福。


棘手的问题!我的猜测是,这将有助于了解比我还多大约计算过程(和超过维基百科的作用:en.wikipedia.org/wiki/Counting_process
一站式

您可以访问ASA杂志Chance吗?在我看来,在过去的一年左右的时间里出现了一篇有关冰球或其他运动的相关文章。
rolando2'2

我尝试重新提出问题(以激发讨论?):假设我们在游戏中有一组离散状态(例如井字游戏)。现在可以为每个状态创建一个模型(也许使用逻辑回归)来预测结果是合理的。现在,我们还有一个游戏,但是具有连续状态(即游戏时间)。OP现在的问题是:如何a)将时间离散化为有限的设定状态,或b)如何建立参数根据当前游戏时间而变化的模型。必须已经有人解决了这个“一般”问题。
steffen 2011年

Answers:


9

使用协变量“比赛时间”和“进球数(主队)-进球数(客队)”进行逻辑回归。您将需要这些条款的互动效果,因为半场结束时2个目标的领先优势要比仅剩1分钟的2个目标的领先优势要小得多。您的回答是“胜利(主队)”。

不要仅仅为此假设线性,而是要为“目标(主队)-目标(客队)”建立一个平滑变化的系数模型,例如,在R中,您可以将mgcvgam函数与模型公式一起使用win_home ~ s(time_remaining, by=lead_home)。设为 lead_home一个因子,以便time_remaining对的每个值获得不同的效果lead_home

我会在每个游戏中创建多个观察值,对于您感兴趣的每一时间段都创建一个。


大!谢谢您的帮助。我将使用R,并将设置与您建议的方式,交互效果及所有类似的数据。很高兴看到我走在正确的轨道上,我真的很感谢您的时间。
Btibert3'2

1
小心包含多个时间片所产生的非独立性。随机效应(多级)模型可能会有所帮助。
爱德华多·莱昂尼

1
@ Eduardo:我同意没有对依赖关系进行建模,这有点麻烦,感谢您指出。我不确定随机效应将如何提供帮助-因为二进制结果win_home在分组级别是恒定的(即,对于任何给定匹配的所有时间片,它都是0或1),包括匹配的随机截距在这种情况下只会导致巨大的分离问题。
fabians 2011年

您可能还需要考虑为总进球数添加一个参数,因为在高分游戏中线索更容易被释放。
詹姆斯,

6

我将开始模拟玩具模型中的数据。就像是:

n.games <- 1000
n.slices <- 90

score.away <- score.home <- matrix(0, ncol=n.slices, nrow=n.games)

for (j in 2:n.slices) {
  score.home[ ,j] <- score.home[ , j-1] + (runif(n.games)>.97)
  score.away[ ,j] <- score.away[ , j-1] + (runif(n.games)>.98)
}

现在我们可以玩一些东西了。您也可以使用原始数据,但是我发现对数据进行模拟对思考问题非常有帮助。

接下来,我将绘制数据,即绘制游戏时间与主场的时间,其色标对应于观察到的获胜概率。

score.dif <- score.home-score.away

windf <- data.frame(game=1:n.games, win=score.home[ , n.slices] > score.away[, n.slices])

library(reshape)
library(ggplot2)

dnow <- melt(score.dif)
names(dnow) <- c('game', 'time', 'dif')
dnow <- merge(dnow, windf)

res <- ddply(dnow, c('time', 'dif'), function(x) c(pwin=sum(x$win)/nrow(x)))

qplot(time, dif, fill=pwin, data=res, geom='tile') + scale_color_gradient2() 

这将帮助您找到数据的支持,并让您初步了解概率。

情节


1

查阅《足球局外人》的统计书呆子以及《数学》一书,获取一些启发。

足球局外人根据足球比赛中的每次比赛做出比赛预测。

数学中的Winston也使用一些技术,例如动态编程。

您还可以考虑其他算法,例如SVM。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.