使用训练和测试集评估回归模型的性能？

我经常听到有关通过提供测试集并在训练集上训练模型来评估分类模型的性能的信息。然后创建2个向量，一个用于预测值，一个用于真实值。显然，进行比较可以使人们使用F-Score，Kappa统计，Precision＆Recall，ROC曲线等工具通过其预测能力来判断模型的性能。

这与评估诸如回归之类的数字预测相比有何不同？我假设您可以在训练集上训练回归模型，使用它来预测值，然后将这些预测值与测试集中的真实值进行比较。显然，性能指标必须有所不同，因为这不是分类任务。通常的残差和统计量是明显的量度，但是是否有更多/更好的方法来评估回归模型的性能？分类似乎有很多选择，但是回归留给和残差。 $R^2$ $R^2$

regression machine-learning model-evaluation

— StatTime
source

我不确定您要问的是什么问题，但是对于具有连续输出的回归模型，明显的误差度量是模型输出和结果变量之间的均方误差（MSE）。

— BGreene 2014年

因此，仅是实际和预测之间的错误度量。

— StatTime 2014年

是的，在训练集上进行了优化，并使用测试集进行了验证。

— BGreene

如上所述，通常使用均方误差。您可以根据训练集计算回归模型，并通过计算测试集（y）的输出与给定输出之间的MSE来使用单独的测试集（输入x和已知预测输出y的集合）评估其性能。对于相同的给定输入（x），由模型（f（x））计算。

或者，您可以使用以下指标：均方根误差，相对平方误差，平均绝对误差，相对绝对误差...（请向Google查询定义）

— 梅里玛·库林（Merima Kulin）
source

好答案。这些都与分配的第二时刻有关。如果要消除偏差或使用所需的任何组合，也可以查看差异的总和。例如，，其中A和B是每种计分方法的权重。确实，这取决于哪些因素对您的特定问题很重要。

e r r = A \sum (x - x_{i}) + B \sum (x - x_{i})^{2}

$err = A\sum (x - x_i) + B\sum (x - x_i)^2$

— 格雷格·彼得森