如何找到权重来衡量差异性

我想学习（推论）可以用于聚类的差异度量的属性权重。

我有一些例子对对象的是“相似的”（应该是相同的簇中），以及一些实施例中对对象的是“不相似”（不应位于同一群集中）。每个对象都有许多属性：如果您愿意，我们可以将每个对象视为特征的维向量，其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例，从中估算出相似度度量的最佳特征权重？ $(a_i,b_i)$ $(c_i,d_i)$ $d$

如果有帮助，在我的应用程序中，集中精力学习作为加权L2范数的相异性度量可能是合理的：

d （ X ， ÿ ） = \sum_{Ĵ} α_{Ĵ} （ X [Ĵ] - ÿ [Ĵ] ）^{2} 。

$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$

其中权重不知道和应该汲取的。（或者，某种加权余弦相似度的可能是合理的了。）是否有好的算法来学习权重对于这样的措施，给出的例子？还是我应该考虑其他方法来学习相似性度量/相异性度量？ $\alpha_j$ $\alpha_j$

不幸的是，维数非常大（数千个或更高；它是从单词袋特征派生的）。但是，我确实有数以万计的示例。然后，我有成千上万个要聚类的对象，因此对示例进行归纳以学习良好的相异性度量很重要。

我认为这属于半监督聚类的范畴，这听起来像是“适应相似性”的范畴，但是我无法找到用于此目的的算法的清晰描述。

— DW
source

非常有趣的问题。如果我的问题正确，您将得到一个主要为空的矩阵，其元素编码成对相似或不相似。一些元素已填写，但大多数都丢失了。我将尝试首先填充该矩阵（例如，使用低秩假设）。

— Vladislavs Dovgalecs 2015年

@xeon，这将是一种方法，但是它忽略了这些功能。我的假设是，某些功能高度相关，而某些功能不相关，并且查看相关功能之间的差异会得出合理的相异度指标-但是我们如何找到该指标？仅根据您的建议尝试完成矩阵会忽略此结构，因此无法充分利用我们拥有的数据。

— 2015年

您的最终目标是什么？不仅仅是学习距离度量，对吗？您想对数据点进行分类，不是吗？

— Vladislavs Dovgalecs 2015年

我认为有些事情您还不清楚。整个示例对对是否形成完整的二进制（1 =相似； 0 =不相似）矩阵，或者缺少某些单元信息？矩阵是否是“非矛盾的”（即示例对象划分为非重叠类）？另外，请注意，没有一种学习方法可以（或应该用来）建议您度量的类型（例如，L2或L1范数），因为这种选择是理论性的（取决于属性的种类，特征的概念化）空间，您将要使用的聚类方法）。

— ttnphns

这个范围太广，无法在这里合理地回答。有大量文献致力于特征权重，选择和距离函数的学习。我想我甚至都没有看过关于相似性学习的会议！

— 已退出–Anony-Mousse 2015年

在机器学习的某些领域，这是一个大问题。我对它的熟悉程度不如我所愿，但我认为这些应该可以帮助您入门。

通过学习不变映射（DrLIM）进行降维似乎在某些数据集上效果很好。
邻域分量分析是一种非常好的线性算法，并且还开发了非线性版本。
有完整的文献从“学习内核”的角度处理这个问题。我对此了解不多，但是这篇论文被高度引用。

$L_2$

— 戴维·哈里斯
source

Q

$Q$

A

$A$

我不明白为什么您不能包括该限制。不过，我不确定生成的模型是否有名称。

— David J. Harris

$a_i$ $1/w_i$

换句话说，您正在询问数据预处理和扩展。这个范围太广，无法在一个问题中得到很好的回答。寻找：

功能选择
特征权重
正常化
降维
其他投影技术
其他距离功能
“学习排名”

有大量的文献，甚至有专门针对此的会议记录。一些帮助您入门的方法：

— 有QUIT--Anony-Mousse
source