让 是我们称为相似函数的函数。相似度函数的例子有余弦距离, 范数,汉明距离,Jaccard相似度等。
考虑 长度的二进制向量 : 。
我们的目标是对相似的向量进行分组。更正式地说,我们要计算一个相似度图,其中节点是向量,边表示相似的向量()。
和 是非常大的数字,并且比较两个长度 向量很昂贵,我们不能做所有的蛮力 操作。我们想要用更少的操作来计算相似度图。
这可能吗?如果不能,我们可以计算出一个近似图,其中包含相似图中的所有边加上最多 其他边缘?
应该是
—
usul 2014年
而不是 ?
@usul感谢您的评论:)在这里,我们希望对高度相似的项目进行分组。我已经编辑了问题,希望现在已经清楚了。
—
拉姆
在我看来,您可以使用“相似性保留哈希”(arxiv.org/pdf/1311.7662v1.pdf)来减少问题的范围。
—
RB
这个问题根本没有明确定义,请提供更多详细信息。例如,如果是由oracle给出的,那么您显然不能做得比。
—
domotorp 2014年
你为推特工作吗?blog.twitter.com/2014/all-pairs-similarity-via-dimsum 认真地说,即使要检测该图中是否存在边(即,它不是一组独立的顶点),也很难比用于任意相似函数。
—
瑞安·威廉姆斯