如何找到权重来衡量差异性


9

我想学习(推论)可以用于聚类的差异度量的属性权重。

我有一些例子对对象的是“相似的”(应该是相同的簇中),以及一些实施例中Ç ð 对对象的是“不相似”(不应位于同一群集中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的d维向量,其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例,从中估算出相似度度量的最佳特征权重?一个一世b一世C一世d一世d

如果有帮助,在我的应用程序中,集中精力学习作为加权L2范数的相异性度量可能是合理的:

dXÿ=ĴαĴX[Ĵ]-ÿ[Ĵ]2

其中权重不知道和应该汲取的。(或者,某种加权余弦相似度的可能是合理的了。)是否有好的算法来学习权重α Ĵ对于这样的措施,给出的例子?还是我应该考虑其他方法来学习相似性度量/相异性度量?αĴαĴ

不幸的是,维数非常大(数千个或更高;它是从单词袋特征派生的)。但是,我确实有数以万计的示例。然后,我有成千上万个要聚类的对象,因此对示例进行归纳以学习良好的相异性度量很重要。

我认为这属于半监督聚类的范畴,这听起来像是“适应相似性”的范畴,但是我无法找到用于此目的的算法的清晰描述。


非常有趣的问题。如果我的问题正确,您将得到一个主要为空的矩阵,其元素编码成对相似或不相似。一些元素已填写,但大多数都丢失了。我将尝试首先填充该矩阵(例如,使用低秩假设)。
Vladislavs Dovgalecs 2015年

@xeon,这将是一种方法,但是它忽略了这些功能。我的假设是,某些功能高度相关,而某些功能不相关,并且查看相关功能之间的差异会得出合理的相异度指标-但是我们如何找到该指标?仅根据您的建议尝试完成矩阵会忽略此结构,因此无法充分利用我们拥有的数据。
2015年

您的最终目标是什么?不仅仅是学习距离度量,对吗?您想对数据点进行分类,不是吗?
Vladislavs Dovgalecs 2015年

1
我认为有些事情您还不清楚。整个示例对对是否形成完整的二进制(1 =相似; 0 =不相似)矩阵,或者缺少某些单元信息?矩阵是否是“非矛盾的”(即示例对象划分为非重叠类)?另外,请注意,没有一种学习方法可以(或应该用来)建议您度量的类型(例如,L2或L1范数),因为这种选择是理论性的(取决于属性的种类,特征的概念化)空间,您将要使用的聚类方法)。
ttnphns

这个范围太广,无法在这里合理地回答。有大量文献致力于特征权重,选择和距离函数的学习。我想我甚至都没有看过关于相似性学习的会议!
已退出–Anony-Mousse 2015年

Answers:


6

在机器学习的某些领域,这是一个大问题。我对它的熟悉程度不如我所愿,但我认为这些应该可以帮助您入门。

大号2


一个

我不明白为什么您不能包括该限制。不过,我不确定生成的模型是否有名称。
David J. Harris

1

一个一世1个/w一世

换句话说,您正在询问数据预处理和扩展。这个范围太广,无法在一个问题中得到很好的回答。寻找:

  • 功能选择
  • 特征权重
  • 正常化
  • 降维
  • 其他投影技术
  • 其他距离功能
  • “学习排名”

有大量的文献,甚至有专门针对此的会议记录。一些帮助您入门的方法:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.