我经常听到有关通过提供测试集并在训练集上训练模型来评估分类模型的性能的信息。然后创建2个向量,一个用于预测值,一个用于真实值。显然,进行比较可以使人们使用F-Score,Kappa统计,Precision&Recall,ROC曲线等工具通过其预测能力来判断模型的性能。
这与评估诸如回归之类的数字预测相比有何不同?我假设您可以在训练集上训练回归模型,使用它来预测值,然后将这些预测值与测试集中的真实值进行比较。显然,性能指标必须有所不同,因为这不是分类任务。通常的残差和统计量是明显的量度,但是是否有更多/更好的方法来评估回归模型的性能?分类似乎有很多选择,但是回归留给和残差。
1
我不确定您要问的是什么问题,但是对于具有连续输出的回归模型,明显的误差度量是模型输出和结果变量之间的均方误差(MSE)。
—
BGreene 2014年
因此,仅是实际和预测之间的错误度量。
—
StatTime 2014年
是的,在训练集上进行了优化,并使用测试集进行了验证。
—
BGreene