距离是否必须是层次聚类上有效的“度量”?


9

假设我们定义了N个项目之间的距离,而不是度量

基于此距离,我们然后使用聚集层次聚类

我们可以使用每种已知算法(单个/最大/可用性链接等)来获得有意义的结果吗?或者换句话说,如果距离不是公制,使用它们会有什么问题?


您的情况下的“项目”是什么?(我问这是否与心理计量学有关,因为如果是这种情况,我建议您看一下项目聚类,或Revelle,W. 层次聚类分析和测试的内部结构,MBR(1979)14 :57。)
chl

Answers:


7

距离要求取决于分层聚类的方法。单一,完整,平均的方法需要距离为非负且对称。病房,质心,中位数方法需要(平方)欧氏距离(比公制还要窄的距离)才能产生几何上有意义的结果。

(我们可以检查他/她的距离矩阵是欧几里得通过双中心吧[见我的答复这里 ],并着眼于特征值;如果没有负本征值中找到,那么距离欧氏空间中做收敛。)


谢谢。进一步的问题:对于单个,完整,平均的方法,三角形不等式是否必须成立?如果某个距离(例如)不对称,那么这些方法会带来什么问题?(谢谢!)
Tal Galili

1
经典的层次聚类方法只能接受对称矩阵:从A到B的距离=从B到A的距离。存在特殊的其他方法来处理非对称(您可以在Google上找到)。至于三角不等式-您提到的方法不是必要条件。(但是,常识认为“距离”是不等式的一部分,因此值得考虑的是将其遗失。如果要这样做,可以在距离上迭代添加一个小常数并进行检查。那么您很快就会到达欧几里得距离)
ttnphns 2011年

5

不,距离不必是公制。例如,它可以是超度量:

d(A,B)max(d(A,C),d(B,C))

可以使用树状图来表示从聚类算法中连续步骤获得的超距,在这种情况下您可能已经看到过。


谢谢你洪。我记得,将某些对象转换为簇的方法要求树状图是超度的-如果这与您编写的内容有关,我会很受伤。无论如何,谢谢您的回答。
Tal Galili
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.