2
如何找到权重来衡量差异性
我想学习(推论)可以用于聚类的差异度量的属性权重。 我有一些例子对对象的是“相似的”(应该是相同的簇中),以及一些实施例中(Ç 我,ð 我)对对象的是“不相似”(不应位于同一群集中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的d维向量,其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例,从中估算出相似度度量的最佳特征权重?(一个一世,b一世)(一个一世,b一世)(a_i,b_i)(c一世,d一世)(C一世,d一世)(c_i,d_i)ddd 如果有帮助,在我的应用程序中,集中精力学习作为加权L2范数的相异性度量可能是合理的: d(x ,y)= ∑ĴαĴ(x [ j ] − y[ j ] )2。d(X,ÿ)=∑ĴαĴ(X[Ĵ]-ÿ[Ĵ])2。d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. 其中权重不知道和应该汲取的。(或者,某种加权余弦相似度的可能是合理的了。)是否有好的算法来学习权重α Ĵ对于这样的措施,给出的例子?还是我应该考虑其他方法来学习相似性度量/相异性度量?αĴαĴ\alpha_jαĴαĴ\alpha_j 不幸的是,维数非常大(数千个或更高;它是从单词袋特征派生的)。但是,我确实有数以万计的示例。然后,我有成千上万个要聚类的对象,因此对示例进行归纳以学习良好的相异性度量很重要。 我认为这属于半监督聚类的范畴,这听起来像是“适应相似性”的范畴,但是我无法找到用于此目的的算法的清晰描述。