基尼系数vs基尼杂质-决策树


25

问题是决策树的建立。根据维基百科,“ 基尼系数 ”不应与“ 基尼杂质 ” 相混淆。但是,在构建决策树时可以同时使用两种方法-在拆分项目集时,这些方法可以支持我们的选择。

1)'基尼杂质'-它是标准的决策树拆分指标(请参见上面的链接);

2)'基尼系数'-可以基于AUC标准评估每个分裂。对于每种拆分方案,我们都可以构建ROC曲线并计算AUC度量。根据维基百科AUC =(GiniCoeff + 1)/ 2;

问题是:这两项措施是否相等?一方面,我被告知不要将基尼系数与基尼杂质混淆。另一方面,这两种措施都可以用于做同一件事-评估决策树拆分的质量。


Answers:


28

不,尽管它们的名字相等,甚至不相似。

  • 基尼杂质是错误分类的一种度量,适用于多分类器上下文。
  • 基尼系数适用于二元分类,并且需要分类器,该分类器可以按照某种方式根据处于肯定类别的可能性对示例进行排名。

两者都可以在某些情况下应用,但是对于不同的事物它们是不同的度量。杂质是决策树中常用的东西。


7

我以两个人A和B分别拥有单位1和单位3的财富作为数据示例。维基百科上的基尼杂质= 1-[(1/4)^ 2 +(3/4)^ 2] = 3/8

根据维基百科的基尼系数,将是下图中红线和蓝线之间的面积与蓝线下的总面积之比

在此处输入图片说明

红线下方的区域是1/2 +1 + 3/2 = 3

蓝线下的总面积= 4

所以基尼系数= 3/4

显然,这两个数字是不同的。我将检查更多情况以查看它们是否成比例或存在确切关系,然后编辑答案。

编辑:我也检查了其他组合,比率不是恒定的。以下是我尝试过的几种组合的清单。 在此处输入图片说明


什么解释!
离群值

0

我认为它们都代表相同的概念。

在分类树中,基尼系数用于计算数据分区的杂质。因此,假设数据分区D由4个类组成,每个类具有相等的概率。那么基尼指数(基尼杂质)将为:基尼(D)= 1-(0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

在CART中,我们执行二进制拆分。因此,基尼系数将作为结果分区的加权总和进行计算,然后选择基尼系数最小的分割。

因此,基尼杂质(基尼指数)的使用不仅限于二进制情况。

基尼杂质的另一个术语是基尼系数,通常用于衡量收入分配。


3
基尼系数不是基尼杂质。看到问题中的链接
肖恩·欧文

2
维基百科专家并不总是可靠的信息来源:-)
Pasmod Turing 2014年

2
当然。在其他地方查找它:mathworld.wolfram.com/GiniCoefficient.html是什么让您认为基尼系数=基尼杂质?
肖恩·欧文


1
我认为我们正在谈论决策树。因此,我们处于机器学习领域!请仔细看问题
Pasmod图灵
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.