我有一组n个集合,需要为它们计算一种“唯一性”或“相似性”值。我已经将Jaccard索引确定为合适的指标。不幸的是,Jaccard索引一次只能操作两组。为了计算所有集合之间的相似度,将需要按n 2个 Jaccard计算的顺序。
(如果有帮助,通常在10到10000之间,并且每个集合平均包含500个元素。而且,最后,我不在乎任何两个特定的集合有多相似-而是,我只在乎内部相似度是多少整个集合集的总和是(换句话说,该组中所有Jaccard索引的均值(或均值的至少足够准确的近似值))
两个问题:
- 有没有办法在没有复杂度的情况下仍然使用Jaccard索引?
- 有没有比我上面建议的方法更好的方法来计算一组集合之间的集合相似性/唯一性?
您首先可以澄清一下“内部相似性”的含义吗?
—
Suresh 2012年
如果您愿意近似答案,则可以使用最小散列法来近似估计Jaccard距离,然后使用结果表示来计算所需的平均值。
—
Suresh
我不知道您所说的“足够准确”是什么意思,但是一种估计许多事物的平均值的方法是随机计算其中的几个(在这种情况下为几对集合的Jaccard索引)并计算它们的平均值。然后,您可以使用切尔诺夫(Chernoff)边界来获得该估计值偏离真实均值的概率的上限。
—
伊藤刚(Tsuyoshi Ito)