Answers:
从技术上讲,为了计算名义属性上个体之间的差异(相似性)度量,大多数程序首先将每个名义变量重新编码为一组伪二进制变量,然后为二进制变量计算一些度量。这是一些常用的二进制相似度和不相似度度量的公式。
什么是伪变量(也称为单变量)?以下是5个人,两个名义变量(A具有3个类别,B具有2个类别)。创建了3个假人代替A,创建了2个假人代替B。
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(不需要消除一个虚拟变量作为“冗余”,就像我们通常在使用虚拟变量进行回归时所做的那样。在聚类中不使用这种方法,尽管在特殊情况下,您可以考虑使用该选项。)
二进制变量有很多度量,但是,逻辑上并非所有度量都适合虚拟二进制变量,即以前的名义变量。您会看到,对于名义变量,“两个个体匹配”和“两个个体不匹配”这一事实具有同等重要的意义。但考虑流行杰卡德措施,其中
这里,不匹配包括两个变体和c;但是对于我们来说,正如已经说过的那样,它们每个都与match a具有相同的重要性。因此,我们应该对a进行两次加权,得到公式2 a,称为Dice(在Lee Dice之后)或Czekanovsky-Sorensen测度。它更适合于虚拟变量。确实,当所有属性都是标称值时,著名的复合高尔系数(为您建议使用标称属性)与Dice完全相等。还要注意,对于虚拟变量,Dice度量(在个体之间)=Ochiai度量(仅是余弦)=Kulczynsky 2度量。更多信息供您参考,1-Dice =二进制Lance-Williams距离,也称为Bray-Curtis距离。看看有多少同义词-您一定会在软件中找到某些同义词!
Dice相似系数的直观有效性来自于这样一个事实,即它只是共存比例(或相对一致性)。对于上面的数据片段,采用标称列A
并5x5
使用1
(两个人都属于同一类别)或0
(两个人都不属于同一类别)计算平方对称矩阵。同样计算的矩阵B
。
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
将两个矩阵的对应项求和,然后除以2(标称变量的数量)-这里就是Dice系数矩阵。(因此,实际上,您不必创建用于计算Dice的虚拟变量,通过矩阵运算,您可能可以按照上述方法更快地完成该操作。)有关名义属性的关联,请参阅 Dice上的相关主题。
当您要在属性为分类的情况之间使用(不相似)函数时,尽管使用Dice是最明显的度量,但也可以使用其他二进制度量-如果发现它们的公式满足您对名义数据的考虑。
简单匹配(SM或Rand)类的度量
但是 ...
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
由于在邻近矩阵的许多应用中(例如在许多聚类分析方法中),结果在线性(有时甚至是单调)的邻近变换下不会改变或会平滑变化,因此似乎可以证明对大量近似值是合理的除了Dice以外的二元测量也可以得到相同或相似的结果。但是,您首先应该考虑/探索特定方法(例如,层次聚类中的链接)如何对给定的邻近度转换做出反应。
如果您计划的聚类或MDS分析对距离的单调变换很敏感,则最好不要使用上表中标为“单调”的度量(因此,是的,将Jaccard相似度或非平方欧氏距离与虚拟对象一起使用不是一个好主意) ,即以前的标称属性)。