如何计算纯度?


15

在聚类分析中,我们如何计算纯度?等式是什么?

我不是在寻找为我做的代码。

在此处输入图片说明

ωk是集群k和cj BE等级j。

那么纯度实际上是准确的吗?看起来好像是在样本量上对每个聚类的真正分类类别的数量求和。

方程源

问题是输出和输入之间的关系是什么?

如果有真实正值(TP),真实负数(TN),错误正数(FP),错误负数(FN)。是Purity=TPK(TP+TN+FP+FN)


3
如果您只需要一个简单的定义:顶级Google搜索聚类纯度 **链接可以在此处给出数学定义。(至少对我来说是**-您的个人结果可能会有所不同)
Glen_b-恢复莫妮卡2014年

我不知道您所说的“纯度”是什么意思,但是David Colquhoun在他的出色教科书《生物统计学》(1971年)第111-114页上以“二项式抽样”作为示例,对二项式进行了抽样。可从作者的网站dcscience.net免费下载pdf 文件。即使与您的问题无关,这也是一个了不起的故事。
Michael Lew 2014年

在分类树中,一些用于测量杂质的功能是:替代误差,基尼系数和熵。(分类树执行特定形式的聚类,因此我认为这应该是相关的。)希望这会有所帮助!
Angelorf 2014年

Answers:


25

在聚类分析的背景下,纯度是聚类质量的外部评估标准。 它是正确分类的对象(数据点)总数的百分比,单位为[0..1]。

Purity=1Ni=1kmaxj|citj|

其中N =对象的数目(数据点),k =簇的数目,ci是在集群C,和tjci

citiciticiticiciticitimax

要计算纯度,请先创建您的混淆矩阵, 这可以通过遍历每个群集来完成。citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142

您还可以回答熵吗?
MonsterMMORPG'3


我认为当您说“ 是分类...最大计数” 时,您“就会溢出逻辑”。这样就不需要m a x j了。顺便说一句,高纯度不能显示分类的正确性,对吗?tjmaxj
LRDPRDX
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.