根据余弦定理,在欧几里得空间中,两个点(向量)1和2之间的(欧几里得)平方距离为。平方长度和分别是点1和2的平方坐标的总和(它们是勾股斜边)。数量被称为向量1和2的标量积(=点积,=内积)。d212=h21+h22−2h1h2cosϕh21h22h1h2cosϕ
标量乘积也称为1和2之间的角度类型相似度,在欧几里得空间中,它是几何上最有效的相似性度量,因为它很容易转换为欧几里德距离,反之亦然(请参见此处)。
协方差系数和Pearson相关性是标量积。如果将多变量数据居中(以便原点位于点云的中心),则的归一化是向量的方差(而不是上图中的变量X和Y),而居中数据的是Pearson ; 因此,标量积是协方差。[旁注。如果您现在正在考虑变量之间的协方差/相关性,而不是数据点之间的协方差/相关性,那么您可能会问,是否有可能像上面的图片一样将变量绘制为矢量。是的,可能,它称为“ 主题空间h2cosϕrσ1σ2r12表示。余弦定理仍然成立,与在这种情况下被视为“矢量”的情况无关-数据点或数据特征。
每当我们有一个对角线上带有1的相似矩阵 -也就是说,所有都设置为1,并且我们相信/期望相似度是欧氏标量积时,如果我们将其转换为平方的欧氏距离需要它(例如,进行此类聚类或MDS时需要距离,最好是欧几里得距离)。因为,根据上述余弦定理公式,是平方欧几里德。如果您的分析不需要因子,您当然可以将其除去,然后按公式hsd2=2(1−s)d2d2=1−s。作为经常遇到的示例,这些公式用于将Pearson转换为欧几里得距离。(另见本和整个主题有一些公式转换questionning到的距离。)rr
就在上面我说过,如果“我们相信/期望……”。您可以检查并确保相似度矩阵(即手头一个特殊矩阵)在几何上没有“特征值”的情况下为 “ OK”标量积矩阵。但是,如果它在这些操作中,然后手段是不正确的标产品,因为有某种程度的几何不收敛无论是在的或的是‘隐藏’的矩阵后面。存在尝试在将其转换为欧几里德距离之前尝试“固化”该矩阵的方法。sshd