我想学习(推论)可以用于聚类的差异度量的属性权重。
我有一些例子对对象的是“相似的”(应该是相同的簇中),以及一些实施例中(Ç 我,ð 我)对对象的是“不相似”(不应位于同一群集中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的d维向量,其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例,从中估算出相似度度量的最佳特征权重?
如果有帮助,在我的应用程序中,集中精力学习作为加权L2范数的相异性度量可能是合理的:
其中权重不知道和应该汲取的。(或者,某种加权余弦相似度的可能是合理的了。)是否有好的算法来学习权重α Ĵ对于这样的措施,给出的例子?还是我应该考虑其他方法来学习相似性度量/相异性度量?
不幸的是,维数非常大(数千个或更高;它是从单词袋特征派生的)。但是,我确实有数以万计的示例。然后,我有成千上万个要聚类的对象,因此对示例进行归纳以学习良好的相异性度量很重要。
我认为这属于半监督聚类的范畴,这听起来像是“适应相似性”的范畴,但是我无法找到用于此目的的算法的清晰描述。
非常有趣的问题。如果我的问题正确,您将得到一个主要为空的矩阵,其元素编码成对相似或不相似。一些元素已填写,但大多数都丢失了。我将尝试首先填充该矩阵(例如,使用低秩假设)。
—
Vladislavs Dovgalecs 2015年
@xeon,这将是一种方法,但是它忽略了这些功能。我的假设是,某些功能高度相关,而某些功能不相关,并且查看相关功能之间的差异会得出合理的相异度指标-但是我们如何找到该指标?仅根据您的建议尝试完成矩阵会忽略此结构,因此无法充分利用我们拥有的数据。
—
2015年
您的最终目标是什么?不仅仅是学习距离度量,对吗?您想对数据点进行分类,不是吗?
—
Vladislavs Dovgalecs 2015年
我认为有些事情您还不清楚。整个示例对对是否形成完整的二进制(1 =相似; 0 =不相似)矩阵,或者缺少某些单元信息?矩阵是否是“非矛盾的”(即示例对象划分为非重叠类)?另外,请注意,没有一种学习方法可以(或应该用来)建议您度量的类型(例如,L2或L1范数),因为这种选择是理论性的(取决于属性的种类,特征的概念化)空间,您将要使用的聚类方法)。
—
ttnphns
这个范围太广,无法在这里合理地回答。有大量文献致力于特征权重,选择和距离函数的学习。我想我甚至都没有看过关于相似性学习的会议!
—
已退出–Anony-Mousse 2015年