调整后的兰德指数与调整后的共同信息


10

我正在尝试评估集群性能。我正在阅读有关metrics的skiscit-learn文档。我不了解ARI和AMI之间的区别。在我看来,他们以两种不同的方式做同样的事情。

从文档中引用:

有了基本实况类分配labels_true和我们的相同样本labels_pred的聚类算法分配的知识,调整后的兰德指数就可以衡量两个分配的相似性,而无需考虑排列和机会归一化。

在了解了基本事实类分配labels_true和我们的相同样本labels_pred的聚类算法分配的知识后,互信息是一个函数,用于测量两个分配的一致性,而忽略排列... AMI是最近提出的,并针对机会。

我应该在聚类评估中同时使用它们吗?还是多余?


兰德先生不是随随便便的。
退出了–Anony-Mousse's

Answers:


2

他们是十分之二的,它们都试图比较聚类。

但是它们并不等同。他们使用不同的理论。

有时,ARI可能更喜欢一种结果,而AMI可能更喜欢另一种结果。但是通常他们会优先选择(不是数字)。


您的意思是什么:“他们同意优先考虑(不是数字同意)?”
al27091

比较多个结果时。
已退出--Anony-Mousse'2

10

经验法则是:

  • 当地面实况聚类具有相等大小的聚类时,请使用ARI
  • 当地面实况聚类不平衡并且存在小聚类时的美国AMI

我致力于这个话题。参考:调整机会聚类比较度量


我在我的一些数据集上应用了HDBSCAN和KMeans,其中KMeans的簇数正确,而HDBSCAN的簇数最小。我的问题是AMI的进展与ARI的进展无关。我在AMI中得到的平均值为0.3和0.35,这很低。我得到的ARI结果分别接近0:0.07和0.01平均值。即使在我使用HDBSCAN获得更好的AMI的情况下,我的ARI得分也非常接近0,即,即使在AMI更高的情况下,HDBSCAN也会产生比KMeans低的ARI。
ryuzakinho

哪种类型的聚类结果意味着AMI的0.3和0.35对应?
西蒙妮

1
pastebin.com/raw/WHvTxbLm 这是我不了解的情况之一:更好的AMI并不意味着更好的ARI,反之亦然。有什么理由让我相信一个或另一个的相对改进。我不确定要改善我的结果要看哪个指标(从您链接的论文中,考虑到我的班级分布,我认为应该是AMI,但我仍然感到困惑)。
ryuzakinho

1
在您的情况下,HDBSCAN结果显示了一个很大的群集,而很多很小的群集按照定义是不平衡的解决方案。因此,使用DBSCAN可以使AMI更大。您的基本事实比该解决方案更加平衡。因此,我将使用ARI在此处选择解决方案。这就是说,看来您获得的集群解决方案并不是那么好。可能是因为您有许多集群。您可以减少所需的群集数量吗?还是您有一些需要考虑的功能,而不是仅使用基于距离的聚类?
西蒙妮

1
经过更多的定性测试后,事实证明,AMI对于我的用例而言更为可靠。确实,AMI表示HDBSCAN更好,而我发现确实更好。尽管我有一个大型噪声群集,但其他群集比KMEANS群集更纯净。
ryuzakinho
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.