通过时间进行逻辑回归更新分类概率


19

我正在建立一个预测模型,该模型可以预测学生在学期末的成功概率。我对学生是成功还是失败特别感兴趣,其中成功通常被定义为完成课程并获得总分的70%或更多。

当我部署模型时,随着更多信息的获得,成功概率的估计需要随着时间的推移而更新-理想的情况是发生某种事情后立即发生,例如学生提交作业或获得一项成绩时。这种更新对我来说听起来像是贝叶斯,但是考虑到我在教育统计方面的训练,这有点超出我的舒适范围。

到目前为止,我一直在使用逻辑回归(实际上是套索)与包含基于周快照的历史数据集。由于每个学生都有观察值,因此该数据集具有相关的观察值;一个学生的观察结果是相关的。我不是在特定学生的每周观察中专门建模相关性。我相信我只需要在推论环境中考虑一下,因为标准误会太小。我认为-但对此不确定-从相关观察得出的唯一问题是,当我交叉验证以将聚类观察保留在数据的一个子集中时,我需要格外小心,这样我就不会根据对模型已经见过的人的预测,人为地降低样本外错误率。TermLength/7

我正在使用R的glmnet程序包对逻辑模型进行套索处理,以生成成功/失败的可能性,并自动为特定课程选择预测变量。我一直使用周变量作为因素,与所有其他预测变量进行交互。我认为这与仅估计基于周的单个模型在总体上并没有什么不同,除了它可以使我们了解整个期间中可能存在一些通用模型,这些模型可以在不同星期通过各种风险调整因子进行调整。

我的主要问题是:是否有一种更好的方法来随时间更新分类概率,而不是将数据集分为每周(或其他基于间隔的)快照,引入与其他要素交互的时间周期因子变量,以及使用累积功能(累积的积分,上课的累积天数等)?

我的第二个问题是:我是否在这里缺少与相关观测值相关的预测建模的关键内容?

我的第三个问题是:考虑到我每周做快照,如何将其概括为实时更新?我正在计划仅在当前的每周时间间隔内插入变量,但这对我来说似乎很麻烦。

仅供参考,我受过应用教育统计方面的培训,但很早以前就拥有数学统计方面的知识。如果可以的话,我可以做一些更复杂的事情,但是我需要用相对容易理解的术语来解释。

Answers:


4

您不能从这里到达那里。您需要从其他模型开始。我将保留每周快照,并围绕每个学生的状态变量的转变建立一个随机模型。假设有10个星期,给出11个“决定”点,即,根据学生是否入学,的状态为,其中为1或0。 ;和是该点的分数(迄今为止的测试分数和作业分数之和)。初始值为。您有两个转换需要担心:和的分布。Ť Ž š Ž š 1 0 P - [R Ô b ż = 0 | s ^ - 1s ^ t0,t1,,tnti(Zi,Si)ZiSi(1,0)Prob(zi=0|si1)Si

辍学概率不是固定的,因为您将在最后的无惩罚处罚日期之前收到大量的辍学。但是您可以根据过去的数据进行估算,也可以根据当前(糟糕的)绩效估算退出的可能性。

Sn

ZS

S

在基线时,学生的及格率仅仅是上一堂课的及格率。

S170-小号1个

作为奖励,您可以计算一个概率范围,该概率范围随着学期的进展而缩小。实际上,优秀的学生会在学期末之前达到70%的成绩,届时他们的成功将是肯定的。对于成绩较弱的学生,失败也将在结束前确定。

RE:问题3。您应该继续前进吗?我不会,因为这将使您进入连续时间随机过程的领域,并且所涉及的数学高于我的薪水等级。不仅如此,您不太可能获得完全不同的结果。

升级我概述的模型的最佳方法不是走连续时间,而是根据先前的经验调整过渡概率。也许弱势学生比独立模型所预测的要落后得多。纳入非均质性将比从离散时间过渡到连续时间改善模型更多。


0

当我为类似的部署类型训练预测模型时,请确保我的数据集具有某种Term_End_Date,以便可以缩短直到该术语结束为止的时间长度。这可能最终将成为模型中的重要预测指标。

关于相关观测的问题,我想这很重要,您拥有的数据存储库的大小。如果可能的话,我会为每个学生随机选择1个观察值,并在[学期结束前的周数]中进行分层。如果可能的话,我也会从较旧的条款中获取经验。如果没有足够的数据来执行此操作,则可以尝试使用引导程序之类的重新采样方法。

我认为,如果您的数据集很小,那么最重要的是保留足够的数据作为保持状态,以确保最终模型稳定。

我认为当您完成所有工作,并且有了一个计分公式时,将很容易实现。但是,是的,您仍然应该插入计算分数所需的每周x变量-但这听起来更像是数据收集问题,而与模型实现无关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.