GINI得分与对数似然比之间的关系是什么


21

我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。

现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。

我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。

问题:

  • GINI杂质评分作为分裂度量的“第一原理”推导是什么?
  • GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)?

参考文献:

香农的熵描述为:

H(x)=ΣiP(xi)logbP(xi)

将其扩展到多元情况下,我们得到:

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

条件熵的定义如下:

H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,H(X|Y)=H(X,Y)H(Y)

似然比的对数用于突变检测,并使用这些对数得出。(我面前没有派生。)

基尼杂质:

  • GINI杂质的一般形式为I=i=1mfi(1fi

想法:

  • 分离是在一定程度的杂质下完成的。高“纯度”可能与低熵相同。该方法可能与熵最小化有关。
  • 假设的基础分布很可能是均匀的,或者可能是挥手的高斯分布。他们可能混合了各种分布。
  • 我想知道Shewhart图表的推导是否可以在这里适用?
  • GINI杂质看起来像是二项式分布的概率密度函数的积分,其中有2次试验,一次成功。 PX=ķ=21个p1个-p

(额外)

  • 该形式也与β-二项式分布一致,后者是超几何分布的共轭形式。超几何测试通常用于确定样本中哪些样本超过或不足。无论是什么,费舍尔的精确测试也都有关系(注意自我,请进一步了解此内容)。

编辑:我怀疑有一种GINI的形式可以很好地与数字逻辑和/或rb树一起使用。我希望今年秋天在一个课堂项目中对此进行探讨。


1
如果我回答自己的问题是否有问题?
EngrStudent-恢复莫妮卡2014年

1
一点都不。如果您提出了您认为合理的答案,请开除。
gung-恢复莫妮卡

@EngrStudent。很好的问题,但是您在参考部分提供的第一个链接与基尼系数有关,基尼系数与CART中使用的基尼度量无关
Antoine

关于基尼系数我刚刚发布了一个简单的解释:stats.stackexchange.com/questions/308885/...
Picaud文森特

Answers:


11

我将使用与此处相同的符号:分类树和回归树背后的数学

基尼增益和信息增益()都是基于杂质的分割标准。唯一的区别是杂质函数:一世G一世

  1. 基尼G一世ñ一世Ë=1个-Ĵ=1个CpĴ2
  2. HË=-Ĵ=1个CpĴ日志pĴ

实际上,它们是参数化的更一般的熵测度(Tsallis熵)的特定值:β

HβË=1个β-1个1个-Ĵ=1个CpĴβ

基尼与获得和与。β=2Hβ1个

对数可能性(也称为统计量)是信息增益的线性变换:G

G-统计=2|Ë|一世G

根据社区(统计/数据挖掘)的不同,人们倾向于一种措施或另一种措施(此处是相关问题)。在决策树归纳过程中,它们可能几乎等效。尽管有很多类,对数似然性可能会给平衡分区带来更高的分数[技术说明:拆分标准的某些属性。Breiman 1996]。

Gini Gain可能更好,因为它没有对数,并且您可以在随机分割假设下找到其期望值和方差的闭合形式[Alin Dobra,Johannes Gehrke:分类树构造中的偏差校正。ICML 2001:90-97]。获取信息并不是那么容易(如果您有兴趣,请参见此处)。


1

好问题。不幸的是,我没有足够的声誉来投票或发表评论,所以请回答!

我对比率测试不是很熟悉,但是令我惊讶的是,它是一种形式主义,用于比较由两个(或多个)不同分布产生的数据的可能性,而基尼系数是单个分布的汇总统计量。

思考基尼系数(IMO)的一种有用方法是将Lorenz曲线下的面积(与cdf相关)。

使用OP中给定的熵定义,可以将Shannon的熵与Gini等同:

H=Σ一世PX一世日志bPX一世

和基尼的定义:

G=1个-1个μΣ一世PX一世小号一世-1个+小号一世,其中

小号一世=ΣĴ=1个一世PX一世X一世(即,直到的累积平均值)。X一世

不过,这看起来并不容易!


对数似然比对相同数据进行运算。其中一个分布可以与另一个分布具有相同的一般形式,但是当其他条件成立时,其参数就适合数据。例如,您可能有一个分布,其参数描述的是正常的生产过程变化(不一定是高斯分布),而另一个分布则与当前生产过程的值拟合,并且对当前的生产过程值进行操作,将对数似然比与阈值进行比较,从而表明游览的可能性。它可以实际与理想进行比较。
EngrStudent-恢复莫妮卡2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.