我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。
现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。
我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。
问题:
- GINI杂质评分作为分裂度量的“第一原理”推导是什么?
- GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)?
参考文献:
- 加权基尼标准是如何定义的?
- 分类和回归树背后的数学
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(已添加) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
香农的熵描述为:
将其扩展到多元情况下,我们得到:
条件熵的定义如下:
似然比的对数用于突变检测,并使用这些对数得出。(我面前没有派生。)
基尼杂质:
- GINI杂质的一般形式为
想法:
- 分离是在一定程度的杂质下完成的。高“纯度”可能与低熵相同。该方法可能与熵最小化有关。
- 假设的基础分布很可能是均匀的,或者可能是挥手的高斯分布。他们可能混合了各种分布。
- 我想知道Shewhart图表的推导是否可以在这里适用?
- GINI杂质看起来像是二项式分布的概率密度函数的积分,其中有2次试验,一次成功。
(额外)
- 该形式也与β-二项式分布一致,后者是超几何分布的共轭形式。超几何测试通常用于确定样本中哪些样本超过或不足。无论是什么,费舍尔的精确测试也都有关系(注意自我,请进一步了解此内容)。
编辑:我怀疑有一种GINI的形式可以很好地与数字逻辑和/或rb树一起使用。我希望今年秋天在一个课堂项目中对此进行探讨。