假设我有五组要聚类。我了解SimHashing技术在这里描述:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
可能产生三个集群({A}
,{B,C,D}
和{E}
),举例来说,如果其结果是:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
同样,MMDS书籍的第3章中介绍了MinHashing技术:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
如果其结果是,也可以产生相同的三个聚类:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(每组对应一个由三个“带”组成的MH签名,如果两个签名带中的至少一个匹配,则将这两组分组。更多的带意味着更多的匹配机会。)
但是我有几个与此有关的问题:
(1)可以将SH理解为MH 的单频段版本吗?
(2)MH是否必然暗示使用诸如Union-Find之类的数据结构来构建集群?
(3)我认为这两种技术中的聚类实际上只是“候选聚类”,也就是说它们只是“候选对”的集合,对吗?
(4)如果(3)为真,是否意味着我仍然必须在每个“预集群”内部进行搜索,以将它们进一步划分为“真实”集群?(如果我有很多小型且相当平衡的预丛集,那可能是合理的,否则就不那么多了)