面板/纵向数据的预测评估指标
我想评估几种不同的模型,这些模型可以每月提供行为预测。数据是平衡的, 100,000, 12。结果是在给定的月份参加音乐会,因此在任何月份中〜80%的人都为零,但是用户量很大,右尾长长。我的预测似乎并不尊重结果的计数性质:小规模音乐会很普遍。T =n=n=n=T=T=T= 我对模型一无所知。我每个人每个月只观察6种不同的黑匣子预测。我确实有额外的一年数据,模型制作者没有估算的数据(尽管一致参加者保持不变),我想评估每个数据在哪里表现良好(就准确性和准确性而言)。例如,某些模型对经常参加音乐会的人是否有很好的预测,但对沙发土豆却没有用?一月份的预测好于十二月的预测吗?另外,很高兴知道这些预测使我能够根据实际情况对人进行正确排名,即使无法相信确切的幅度。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 我的第一个想法是对预测的和时间的虚拟变量进行实际的固定效应回归,并查看每个模型的RMSE或。但这不能回答有关每个模型在哪里运行良好或差异是否显着的问题(除非我引导RMSE)。结果的分布也让我担心这种方法。R2R2R^2 我的第二个想法是将结果分为0、1-3和3+,然后计算混淆矩阵,但这会忽略时间维度,除非我将其设为12。这也很粗糙。 我知道concordTJ Steichen和NJ Cox所提供的Stata命令,它们可以by()选择,但是这需要将数据压缩到年度总数中。这将在其他有用的统计数据中,使用置信区间计算Lin的Concordance相关指数。CCC的范围是-1至1,完美的一致性为1。 还有Harrell的(由R. Newson 计算 ),可以选择,但是我不确定这是否允许我处理面板数据。这为您提供了置信区间。Harrell c是连续结果的ROC曲线(AUC)下面积的概括。它是可以排序的所有对的比例,以使具有较高预测值的对象实际上具有较高的结局。因此,对于随机预测,,对于完全区分的模型,。参见哈雷尔的书,第493页c = 0.5 c = 1cccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 您将如何解决这个问题?您是否建议计算预测中常见的统计数据(如MAPE)? 到目前为止发现的有用的东西: 幻灯片上的林的一致性相关系数的重复测量版本