面板/纵向数据的预测评估指标


11

我想评估几种不同的模型,这些模型可以每月提供行为预测。数据是平衡的, 100,000, 12。结果是在给定的月份参加音乐会,因此在任何月份中〜80%的人都为零,但是用户量很大,右尾长长。我的预测似乎并不尊重结果的计数性质:小规模音乐会很普遍。T =n=T=

我对模型一无所知。我每个人每个月只观察6种不同的黑匣子预测。我确实有额外的一年数据,模型制作者没有估算的数据(尽管一致参加者保持不变),我想评估每个数据在哪里表现良好(就准确性和准确性而言)。例如,某些模型对经常参加音乐会的人是否有很好的预测,但对沙发土豆却没有用?一月份的预测好于十二月的预测吗?另外,很高兴知道这些预测使我能够根据实际情况对人进行正确排名,即使无法相信确切的幅度。y^1,...,y^6

我的第一个想法是对预测的和时间的虚拟变量进行实际的固定效应回归,并查看每个模型的RMSE或。但这不能回答有关每个模型在哪里运行良好或差异是否显着的问题(除非我引导RMSE)。结果的分布也让我担心这种方法。R2

我的第二个想法是将结果分为0、1-3和3+,然后计算混淆矩阵,但这会忽略时间维度,除非我将其设为12。这也很粗糙。

我知道concordTJ Steichen和NJ Cox所提供的Stata命令,它们可以by()选择,但是这需要将数据压缩到年度总数中。这将在其他有用的统计数据中,使用置信区间计算Lin的Concordance相关指数。CCC的范围是-1至1,完美的一致性为1。

还有Harrell的(由R. Newson 计算 ),可以选择,但是我不确定这是否允许我处理面板数据。这为您提供了置信区间。Harrell c是连续结果的ROC曲线(AUC)下面积的概括。它是可以排序的所有对的比例,以使具有较高预测值的对象实际上具有较高的结局。因此,对于随机预测,,对于完全区分的模型,。参见哈雷尔的书,第493页c = 0.5 c = 1csomersdclusterc=0.5c=1

您将如何解决这个问题?您是否建议计算预测中常见的统计数据(如MAPE)?


到目前为止发现的有用的东西:

  • 幻灯片上的林的一致性相关系数的重复测量版本

我们需要更多地了解行为,它是序数/二进制/连续值吗?由于此实验是纵向的,您的兴趣在于预测或预测个体的结果吗?混合效果模型用于推理,而不是预测。它们不起作用,因为要进行预测,您需要估算随机效应。
AdamO 2013年

实际行为是计数或连续的。这些预测都是连续的。我想看看个人水平的每月预测有多好。
Dimitriy V. Masterov

您曾观察过先前数据的人或初次评估时的人的“个人月度预测”?IE正在获取或或或...由于纵向预测不是一件Yi=12^=f(Xi=12,11,,1,Yi=11,10,,1^ Y i =f X iYi=I^=f(Xi=I,I1,,1,Yi=I1,I2,,1Yi^=f(Xi)
容易的

这是用于估算的人员样本,但是预测是针对估算窗口之后的年份。第一个月的预测是人的滞后,观察到的行为和观察到的协变量的函数:我希望第一个月会很接近。对于第二个月(及其后),它是上个月的预测以及该月观察到的协变量的函数:。我希望这个预测会越来越偏离实际情况。我想比较和。ÿ1 = ˚F Ý - 1X ÿ2 = ˚F Ý1X 2ÿ ÿiY^i,1=f(Yi,t1,Xi,t).Y^i,2=f(Y^i,1,Xi,2)Yi,tY^i,t
Dimitriy V. Masterov

估计意味着参数估计可能是预测模型的“训练”的一部分,但是我想您是说您的样本用于训练预测模型。您在这里所说的是有条件的半马尔可夫过程,在预测中有独特的应用。
AdamO 2013年

Answers:


1

为了评估半马尔可夫预测的预测能力,根据样本量和其他可用信息,有许多可用的方法。

对于评估任何预测/预测模型,您可以选择交叉验证(特别是留一法或迭代拆分样本交叉验证),其中在“训练”样本中估计模型,在“验证”中评估模型不确定性样品。根据结果​​的分布,可以使用多种度量,通过这些度量可以从一组合格的模型中选择一个模型。对于用于模型选择的一般非参数度量,人们真的很喜欢AIC和BIC,尤其是后者。

CCC和c统计量用于评估二进制横截面预测,例如来自测试/分析的预测,因此,如果要预测BMI或IQ,则必须将其排除在外。他们测量校准(如Hosmer Lemeshow测试)和所谓的风险分层能力。与那里的连续结果没有直观的联系,至少据我所知。

另一方面,RMSE用于评估连续的预测(除了风险预测的情况,其中RMSE被称为Brier分数,这是一个非常古老且已过时的模型评估工具)。这是一个出色的工具,可能用于校准我们每天遇到的多达80%的预测模型(天气预报,能源额定值,车辆的MPG等)。

分割样本验证或重新采样以评估预测模型时的警告是,只有当样本使您无法预测过去的结果时,您才可能对将来的结果感兴趣。不要这样!它不能反映模型的应用,并且可以负面地影响选择。前滚所有可用信息,并预测所有可用情况下未来未观察到的结果。

几乎所有适用的线性模型书籍都将涵盖预测,RMSE以及训练和验证模型的细微差别。一个好的开端将是Kutner,Nachtsheim,Neter,Li,同时考虑Diggle的“时间序列分析”,Diggle Heagerty Zeger Li的“纵向数据分析”以及潜在的Harrell的“回归建模策略”。


CCC和Harrell的c可用于连续结果。CCC还实施了重复措施。请参阅我在问题中添加的参考文献/链接。
Dimitriy V. Masterov 2013年

没关系 您尚未分类。
AdamO 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.