为什么使用归一化基尼分数代替AUC作为评估?


14

Kaggle的比赛Porto Seguro的“安全驾驶员预测”使用“标准化基尼分数”作为评估指标,这让我很好奇这种选择的原因。使用规范化的gini得分代替最常用的指标(如AUC)进行评估有什么优势?


1
Kaggle网站过去曾这样回答:“由于并非所有积极的例子都会立即出现,因此“完美”模型有一个最大可实现的区域。我们使用归一化的基尼系数,将模型的基尼系数除以基尼系数完美的模型。” 但现在不可用。webcache.googleusercontent.com/...
塞克图斯经验派

1
因此,基尼只是不同规模的auc。还是将auc和gini应用于不同的曲线?作为机器学习的非专家,对我而言这还不是很清楚。问题不是很清楚。
Sextus Empiricus

Answers:


3

我认为,基尼分数只是AUC的重新制定: 至于为什么使用此数字而不是常用的AUC,我能想到的唯一原因是随机预测会产生基尼系数得分为0,而AUC为0.5。

gini=2×AUC1

6
除了使用基尼系数将随机分类器的性能设置为0分外,归一化还改善了量表的另一端,并使完美分类器的得分等于1分,而不是最大分值AUC <1。改进只是相对的,取决于您是否认为更直观的量表是好还是不好。尽管超越了这种简单的解释,您可能会争辩说它(规范化)还可以改善不同数据集的概括和比较。
Sextus Empiricus

为什么macimum可以达到的AUC小于1,我也看不到基尼如何将其设置为1?
rep_ho

这取决于它们计算基尼系数的曲线类型。也许他们使用的东西不同于ROC曲线(其最大AUC确实为1)。鉴于kaggle网站上的字样,最大AUC不​​是1:>> “然后我们从左向右移动,问“在数据的最左侧x%中,您累积了多少累积响应?”。
Sextus Empiricus

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.