用简单的英语表达科恩的河童

131

我正在阅读一本数据挖掘书，其中提到了Kappa统计信息，作为评估分类器预测性能的一种手段。但是，我只是不明白这一点。我还检查了Wikipedia，但它也没有帮助：https : //en.wikipedia.org/wiki/Cohen's_kappa。

科恩的kappa如何帮助评估分类器的预测性能？这说明了什么？

我了解100％的kappa表示分类器与随机分类器完全一致，但是我不知道这对评估分类器的性能有何帮助？

40％的kappa是什么意思？这是否意味着40％的时间分类器与随机分类器一致？如果是这样，这对我有什么帮助或帮助我评估分类器？

classification data-mining cohens-kappa

— 杰克·吐温
source

226

介绍

Kappa统计量（或值）是一种将观察到的准确性与预期准确性（随机机会）进行比较的度量。kappa统计信息不仅用于评估单个分类器，而且还用于评估它们之间的分类器。此外，它还考虑了随机机会（与随机分类器达成一致），这通常意味着它比简单地使用准确性作为度量标准具有更少的误导性（观察准确度为80％的印象要差得多，预期准确度为75％相对于50％的预期准确度）。观测精度和预期精度的计算是理解Kappa统计信息所不可或缺的，并且最容易通过使用混淆矩阵来说明。允许从一个简单的二元分类的简单混淆矩阵开始猫和狗：

计算方式

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

假设使用监督的机器学习对标记的数据建立了模型。并非总是如此。kappa统计量通常用作衡量两个人类评分者之间可靠性的指标。无论如何，列对应于一个“评估者”，而行对应于另一“评估者”。在有监督的机器学习中，一个“评估者”反映了从标记数据中获得的地面真实性（每个要分类实例的实际值），另一个“评估者”是用于执行分类的机器学习分类器。最终，哪个计算kappa统计信息并不重要，但为了清楚起见，分类。

从混淆矩阵中我们可以看到总共有30个实例（10 + 7 + 5 + 8 = 30）。在第一列中，15标记为猫（10 + 5 = 15），在第二列中，15标记为狗（7 + 8 = 15）。我们还可以看到，该模型将17个实例分类为Cats（10 + 7 = 17），将13个实例分类为Dogs（5 + 8 = 13）。

观察到的准确度就是在整个混淆矩阵中正确分类的实例数，即通过地面真理被标记为Cats，然后由机器学习分类器分类为Cats或通过地面真理和标记为Dogs的实例数量。然后由机器学习分类器分类为狗。要计算观察到的准确性，我们只需添加机器学习分类器与基本事实相符的实例数标签，然后除以实例总数。对于这个混淆矩阵，这将是0.6（（10 + 8）/ 30 = 0.6）。

在我们得出kappa统计量的等式之前，还需要一个值：期望精度。该值定义为基于混淆矩阵期望任何随机分类器达到的精度。该预期的精度直接关系到每个类（的实例的数量猫和犬），与该实例的数量以及机器学习分类约定的地面实况标签。为了计算预期精度为我们的混淆矩阵，第一乘以边际频率的猫为一个“评估者”由边际频率的猫为第二个“评分者”，并除以实例总数。某个“评估者”对某个类别的边际频率只是该“评估者”所指示的所有实例的总和。在我们的情况下，15（10 + 5 = 15）的实例标记为猫根据地面实况，和17（10 + 7 = 17）的实例被归类为猫由机器学习分类器。结果为8.5（15 * 17/30 = 8.5）。然后也对第二个类进行此操作（如果有两个以上的类，则可以对每个其他类重复进行此操作）。15（7 + 8 = 15）的实例标记为狗根据地面实况，和13（8 + 5 = 13）的实例被归类为狗通过机器学习分类。结果为6.5（15 * 13/30 = 6.5）。最后一步是将所有这些值相加，最后再次除以实例总数，得出的期望精度为0.5（（8.5 + 6.5）/ 30 = 0.5）。在我们的示例中，“ 期望准确度”为50％，这在“评估者”以二进制分类方式将每个类别以相同的频率进行分类时都是如此（均为Cats根据我们的混淆矩阵中的地面真相标签，“ 狗”包含15个实例）。

然后可以使用观测精度（0.60）和预期精度（0.50）以及以下公式来计算kappa统计信息：

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

因此，在我们的情况下，kappa统计信息等于：（0.60-0.50）/（1- 0.50）= 0.20。

再举一个例子，这是一个不太平衡的混淆矩阵和相应的计算：

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

基本事实：猫（29），狗（22）
机器学习分类器：猫（31），狗（20）
总计：（51）
观测精度：（（22 + 13）/ 51）= 0.69
预期精度：（（29 * 31/51）+（22 * 20/51））/ 51 = 0.51
卡伯：（0.69-0.51）/（1-0.51）= 0.37

本质上，kappa统计量衡量的是机器学习分类器分类的实例与标记为地面真理的数据匹配的紧密程度，从而控制了预期分类精度对随机分类器的准确性。这种kappa统计不仅可以说明分类器本身的性能，而且一个模型的kappa统计可直接与用于同一分类任务的任何其他模型的kappa统计相比。

解释

卡伯统计量没有标准化的解释。根据Wikipedia（引用他们的论文），Landis和Koch认为0-0.20轻微，0.21-0.40中等，0.41-0.60中等，0.61-0.80实质，0.81-1几乎完美。Fleiss认为，kappas> 0.75的情况为好，0.40-0.75的情况是良好，而<0.40的情况是差。重要的是要注意，这两个比例在某种程度上都是任意的。解释kappa统计信息时，至少应考虑另外两个因素。首先，应尽可能将kappa统计信息与伴随的混淆矩阵进行比较，以获得最准确的解释。考虑以下混淆矩阵：

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

kappa统计数据为0.47，远高于Landis和Koch的“中度”阈值，而Fleiss的“良好”阈值。但是，请注意分类猫的命中率。实际上，只有不到三分之一的猫被归类为猫；其余全部归类为狗。如果我们更关心对猫进行正确的分类（例如，我们对猫过敏而不对狗过敏，而我们关心的只是不屈从于过敏，而不是最大限度地增加所摄取的动物数量），则分类器的等级较低kappa，但对猫的分类率更高可能更理想。

第二，可接受的kappa统计值在上下文中有所不同。例如，在许多具有容易观察到的行为的评分者间可靠性研究中，低于0.70的kappa统计值可能被认为较低。但是，在使用机器学习探索不可观察到的现象（例如白日梦等认知状态）的研究中，kappa统计值大于0.40可能被认为是例外。

因此，在回答有关0.40 kappa的问题时，要视情况而定。如果没有其他要求，则意味着分类器达到的分类率是预期精度与100％精度之间的2/5。如果预期精度为80％，则意味着分类器执行了80％以上（因为kappa为0，即20％）的40％（因为kappa为0.4）（因为这是80％与100％之间的距离）。随机机会），或88％。因此，在这种情况下，kappa的每增加0.10表示分类精度增加2％。如果准确度改为50％，则kappa为0.4表示分类器以50％（50％与100％之间的距离）的40％（kappa为0.4）的准确度大于50％（因为这是kappa为0（或随机几率），即70％。同样，在这种情况下，这意味着kappa会增加0。

可以通过kappa统计信息（而不是仅使用准确性）更可靠地比较在不同类别分布的数据集上构建和评估的分类器，因为这种缩放与预期准确性相关。它提供了更好的指示符，表明分类器如何在所有实例中执行，因为如果类分布类似地偏斜，则可能会偏斜简单的准确性。如前所述，与预期的75％相比，预期的50％的精度要高出80％。上面详述的预期准确性容易受到类别分布偏斜的影响，因此，通过kappa统计量控制预期准确性，我们可以更轻松地比较不同类别分布的模型。

那就是我所拥有的。如果有人发现有遗漏的地方，不正确的地方或尚不清楚的地方，请告诉我，以便改善答案。

我发现的参考资料有帮助：

包含对kappa的简洁描述：http : //standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

包含有关计算预期准确性的描述：http : //epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html

— rbx
source

1

添加一些有关为何单元格的预期频率等于rowsum * colsum / N的背景信息，因为这是简化的版本，因此在方程式成立之初并不明显。这是在卡方检验的使用，以及：en.wikipedia.org/wiki/...

— Zhubarb

2

这是一个很好的答案，但我想知道您是否可以进一步阐明（或链接！）非常占优势的阶级如何影响对kappa的解释。例如，我有一个由7个土地覆被类别组成的conf矩阵，其中一个占主导地位（约占所有数据的70％）。我认为这会“淹没”整个错误？

— 山姆

2

只是一个随机评论：您的描述比Wikipedia页面更清楚:)

— R.Falque '16

1

对于期望的准确性，请注意，可能更简单地考虑如下：（15/30）是“基本事实”对猫进行分类的期望比例，而（15/30）是期望的比例。 “地面真理”将狗归类。同样，对于ML分类器（17/30）预期比例的猫，（13/30）预期比例的猫。假设不相关的分类器，那么我们有时间分类器的百分比偶然地一致为（15/30）*（17/30）+（15/30）*（13/30）= .5（他们同意并分类为狗或作为猫）。因此，时间协议的.5是偶然的。

— ClownInTheMoon '18

1

好吧，可以肯定的是，比较注释器是最初的意图。但是，科学史上充斥着这样的情况：某些公式或另一种公式从其产卵池跳入另一池，并使世界变得更美好。话虽如此，根据您的情况，可能会有更好的指标可以使用。在做出最终决定之前，您应该了解候选指标的优缺点。例如，在某些情况下AUPRC可能是更好的方法。

— rbx

14

rbx有一个很好的答案。但是，这有点冗长。这是我对Kappa指标的总结和直觉。

Kappa是衡量分类器性能的重要指标，尤其是对不平衡的数据集而言。

例如，在信用卡欺诈检测中，响应变量的边际分布高度偏斜，因此使用准确性作为度量将无用。换句话说，对于给定的欺诈检测示例，99.9％的交易将是非欺诈交易。我们可以有一个琐碎的分类器，它总是对每笔交易说不欺诈，而我们仍然有99.9％的准确性。

另一方面，Kappa将通过考虑响应变量的边际分布来 “解决”此问题。使用Kappa，上述琐碎的分类器将具有非常小的Kappa。

用通俗易懂的英语，它可以衡量与目标分布的猜测相比，分类器的优劣。

— 海涛都
source

1

我觉得最后一段应该读为“用简单的英语来说，它衡量了分类器与目标分布猜测相比要好多少”。

— 银鱼

8

$^1$

“例如，给定的等概率代码和观察员的准确度为85％：

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

现在，如果我们没有等价的代码却有不同的“基本费率”怎么办？

对于两个代码，Bruckner等人的kappa图。看起来像

......尽管如此（...继续维基百科报价），幅度准则已经出现在文献中。也许第一个是Landis和Koch，他们刻画了价值观

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement.

但是，这套准则绝不是普遍接受的。Landis和Koch没有提供任何证据来支持它，而是基于个人意见。已经指出，这些准则可能有害无益。弗莱斯（Freiss）同样武断的准则将

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

（引自维基百科的结尾）

$^1$ $^2$

另请参阅使用Cohen的kappa统计量评估类似问题的二进制分类器。

1 Bakeman，R .; Quera，V .; 麦克阿瑟（D. Robinson，BF（1997）。“检测顺序模式并与易犯错误的观察者确定其可靠性”。心理方法。2：357-370。doi：10.1037 / 1082-989X.2.4.357

2 Robinson BF，Bakeman R. ComKappa：Windows 95程序，用于计算kappa和相关统计数据。行为研究方法。1998; 30：731-2。

— 卡尔
source

1

回答您的问题（用简单的英语:-)）：

Kappa如何帮助评估分类器的预测性能？这说明了什么？！

您应将kappa视为2个人之间达成协议的程度，以便将结果解释为：

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

— dh
source

6

不要盲目地应用此量表，请阅读rbx的答案：“对kappa统计信息没有标准化的解释。...Landis和Koch认为0-0.20轻微，0.21-0.40中等，0.41-0.60中等，0.61-0.80接近完美，而0.81-1则接近完美； Fleiss认为kappas> 0.75优秀，0.40-0.75中等至良好，<0.40较差。解释kappa统计信息时，至少应考虑另外两个因素。” rbx的答案中解释了这些注意事项

— joelostblom