将相似度矩阵转换为(欧式)距离矩阵


27

在随机森林算法中,Breiman(作者)构造相似矩阵如下:

  1. 将所有学习示例发送到森林中的每棵树上

  2. 如果两个示例落在同一片叶子上,则相似矩阵中的对应元素增加1

  3. 用树数归一化矩阵

他说:

情况n和k之间的接近度形成矩阵{prox(n,k)}。从它们的定义可以很容易地看出,该矩阵是对称的,正定的并且在1上有界,对角线元素等于1。由此得出,值1-prox(n,k)是欧几里得中的平方距离维数空间不大于案例数。资源

在他的实现中,他使用sqrt(1-prox)(其中prox是相似矩阵)将其转换为距离矩阵。我想这与上面引用的“欧氏空间中的平方距离”有关。

有人可以解释为什么为什么在欧几里得空间中1-prox是平方距离,以及为什么他使用平方根来获得距离矩阵吗?

Answers:


30

在此处输入图片说明

根据余弦定理,在欧几里得空间中,两个点(向量)1和2之间的(欧几里得)平方距离为。平方长度和分别是点1和2的平方坐标的总和(它们是勾股斜边)。数量被称为向量1和2的标量积(=点积,=内积)。d122=h12+h222h1h2cosϕh12h22h1h2cosϕ

标量乘积也称为1和2之间的角度类型相似度,在欧几里得空间中,它是几何上最有效的相似性度量,因为它很容易转换为欧几里德距离,反之亦然(请参见此处)。

协方差系数和Pearson相关性标量积。如果将多变量数据居中(以便原点位于点云的中心),则的归一化是向量的方差(而不是上图中的变量X和Y),而居中数据的是Pearson ; 因此,标量积是协方差。[旁注。如果您现在正在考虑变量之间的协方差/相关性,而不是数据点之间的协方差/相关性,那么您可能会问,是否有可能像上面的图片一样将变量绘制为矢量。是的,可能,它称为“ 主题空间h2cosϕrσ1σ2r12表示。余弦定理仍然成立,与在这种情况下被视为“矢量”的情况无关-数据点或数据特征。

每当我们有一个对角线上带有1的相似矩阵 -也就是说,所有都设置为1,并且我们相信/期望相似度是欧氏标量积时,如果我们将其转换为平方的欧氏距离需要它(例如,进行此类聚类或MDS时需要距离,最好是欧几里得距离)。因为,根据上述余弦定理公式,是平方欧几里德。如果您的分析不需要因子,您当然可以将其除去,然后按公式hsd2=2(1s)d2d2=1s。作为经常遇到的示例,这些公式用于将Pearson转换为欧几里得距离。(另见和整个主题有一些公式转换questionning到的距离。)rr

就在上面我说过,如果“我们相信/期望……”。您可以检查并确保相似度矩阵(即手头一个特殊矩阵)在几何上没有“特征值”的情况下 “ OK”标量积矩阵。但是,如果它在这些操作中,然后手段是不正确的标产品,因为有某种程度的几何不收敛无论是在的或的是‘隐藏’的矩阵后面。存在尝试在将其转换为欧几里德距离之前尝试“固化”该矩阵的方法。sshd

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.