余弦相似度,皮尔逊相关度和z得分之间是否有任何关系?


16

我想知道这三项措施之间是否有任何关系。我似乎无法通过引用定义在它们之间建立联系(可能是因为我是这些定义的新手,并且在掌握它们时花了一些时间)。

我知道余弦相似度的范围可以是0-1,并且皮尔逊相关性的范围可以是-1到1,并且我不确定z得分的范围。

但是,我不知道余弦相似度的某个值如何告诉您有关皮尔逊相关性或z分数的信息,反之亦然?


1
z得分是多少某些事物的z分数可能与Pearson相关性相关,其他事物的Z分数可能不相关。例如,如果您在内部对原始变量进行标准化,则x和y之间的Pearson相关性就是其z分数的预期乘积。或者你可能在谈论z分数皮尔逊相关性(皮尔森相关减去一些情况下,他们的期望全部由Pearson相关系数的标准误差分),这肯定会涉及到Pearson相关。
Glen_b-恢复莫妮卡

Answers:


29

一种b

cosθ=一种b一种b

对于向量,“ -score”向量通常定义为 ,其中和是的均值和标准差。因此均值为0,标准差为1,即是的标准化版本。ž ž = X - ˉ Xxz ˉ X =1

z=xx¯sx
小号 2 X =‾ X - ˉ X2 XŽžXx¯=1nixisx2=(xx¯)2¯xzzxx

对于两个向量和,它们的相关系数为 ÿ ρ X ÿ = ¯ ż X Ž ÿxy

ρx,y=(zxzy)¯

现在,如果向量均值为零,则其方差将为,因此其单位向量和z得分将与相关 s 2 a = 1asa2=1na2

a^=aa=zan

因此,如果向量和居中(即均值为零),则它们的余弦相似度将与其相关系数相同。ab

TL; DR余弦相似度是单位向量的点积。皮尔逊相关系数是中心向量之间的余弦相似度。向量的“ Z分数变换”是定心为范数的居中向量。n


+1。latexnazi评论:\|通常看起来比更好||,并且\lVert ... \rVert是编写它的最佳方法。
变形虫说莫妮卡(Monica)恢复
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.