我已经训练了两个模型(使用h2o AutoML的二进制分类器),我想选择一个模型。我得到以下结果:
model_id auc logloss logloss_train logloss_valid gini_train gini_valid
DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975
DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662
的auc
和logloss
列是交叉验证指标(交叉验证仅使用训练数据)。在..._train
和..._valid
指标分别由通过模型运行训练和验证指标发现。我想使用logloss_valid
或gini_valid
选择最佳模型。
模型1具有更好的基尼系数(即更好的AUC),而模型2具有更好的对数损失。我的问题是选择哪一个我认为是问题,使用基尼(AUC)或对数损失作为决策指标的优点/缺点是什么?
1
该视频很好地解释了如果您对概率而不是分类感兴趣,为什么首选logloss。注意,对于二进制分类,logloss等于brier分数。
—
丹