多标签数据准确性的衡量标准是什么?


25

考虑一个为您提供KnownLabel矩阵和PredictedLabel矩阵的方案。我想相对于KnownLabel矩阵来衡量PredictedLabel矩阵的优势。

但是这里的挑战是,KnownLabel矩阵只有几行只有一个1,而其他几行却有很多1(这些实例被多重标记)。下面给出了KnownLabel矩阵的示例。

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

在上面的矩阵中,数据实例1和2是单个标签数据,数据实例3和4是两个标签数据,数据实例5是三个标签数据。

现在,我已经使用算法对数据实例的PredictedLabel矩阵进行了处理。

我想知道各种可用于衡量PredictedLabel矩阵相对于KnownLabel矩阵的良好性的度量。

我可以将它们之间的frobeinus规范差异视为衡量标准之一。但是我正在寻找诸如准确性(=Correctly_predicted_instancetotal_instance)

在这里,我们如何为多个数据实例定义?Correctly_predicted


5
(+1)旁注:是否有特定原因导致您在大多数问题中都没有接受答案?当提供的答案不能解决您的问题时,为什么不发表评论?例如:stats.stackexchange.com/questions/9947/...
斯特芬

Answers:


23

(1)给出了一个很好的概述:

在此处输入图片说明

在此处输入图片说明

维基百科页面N多标签分类包含了评估指标一节为好。

我要添加一个警告,即在多标签设置中,准确性是不明确的:它可能是指精确匹配率或汉明得分(请参阅此文章)。不幸的是,许多论文使用术语“准确性”。


(1)Sorower,MohammadS。“ 关于多标签学习算法的文献调查。 ”俄勒冈州立大学,科瓦利斯(2010)。


2
这些定义是否与“精确度和召回率”的一般定义背道而驰?我一直读到,精度应除以TP + FP,召回率应除以TP + FN(如果我理解得很清楚,此处提出的定义则相反)。
tomasyany

ÿ一世ÿ={01个}ķ一世ž一世=HX一世={01个}ķHÿ一世ž一世

对于accuracy度量,您如何优雅地处理分母所在的案例|Y + Z| == 0
ihadanny

3
@tomasyany指的是文本定义(而不是公式),它们似乎确实在切换。
Narfanar

这个AP定义看起来更像是mAP(平均AP),不是吗?所谓的“准确性”是平均IoU。这些术语总体上有点令人困惑。
Narfanar


3

Correctly Predicted是建议标签集和预期标签集之间的交集。Total Instances是以上集合的并集(无重复计数)。

因此,给出一个示例,您可以在其中预测类A, G, E,而测试用例E, A, H, P最终具有正确的类Accuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.