当属性是名义的时,个人的最佳距离函数是什么?


12

我不知道在名义(无序分类)属性的情况下要使用个体之间的距离函数。我正在阅读一些教科书,他们建议使用简单匹配功能,但有些书则建议我将标称值更改为二进制属性,并使用Jaccard系数。但是,如果名义属性的值不是2怎么办?如果该属性中有三个或四个值怎么办?

应该为名义属性使用哪个距离函数?


1
我发现这篇文章对Cramer的V和Chi平方统计有用。
KarthikS 2016年

Answers:


18

从技术上讲,为了计算名义属性上个体之间的差异(相似性)度量,大多数程序首先将每个名义变量重新编码为一组二进制变量,然后为二进制变量计算一些度量。这是一些常用的二进制相似度和不相似度度量的公式。

什么是伪变量(也称为单变量)?以下是5个人,两个名义变量(A具有3个类别,B具有2个类别)。创建了3个假人代替A,创建了2个假人代替B。

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(不需要消除一个虚拟变量作为“冗余”,就像我们通常在使用虚拟变量进行回归时所做的那样。在聚类中不使用这种方法,尽管在特殊情况下,您可以考虑使用该选项。)

二进制变量有很多度量,但是,逻辑上并非所有度量都适合虚拟二进制变量,即以前的名义变量。您会看到,对于名义变量,“两个个体匹配”和“两个个体不匹配”这一事实具有同等重要的意义。但考虑流行杰卡德措施,其中一个一个+b+C

  • a-两个人的假人数量1
  • b-假人数量1,假人数量0
  • c-虚拟对象的数量为此0和1
  • d-哑元数均为0

这里,不匹配包括两个变体c;但是对于我们来说,正如已经说过的那样,它们每个都与match a具有相同的重要性。因此,我们应该对a进行两次加权,得到公式2 abC一个一个,称为Dice(在Lee Dice之后)或Czekanovsky-Sorensen测度。它更适合于虚拟变量。确实,当所有属性都是标称值时,著名的复合高尔系数(为您建议使用标称属性)与Dice完全相等。还要注意,对于虚拟变量,Dice度量(在个体之间)=Ochiai度量(仅是余弦)=Kulczynsky 2度量。更多信息供您参考,1-Dice =二进制Lance-Williams距离,也称为Bray-Curtis2一个2一个+b+C距离。看看有多少同义词-您一定会在软件中找到某些同义词!

Dice相似系数的直观有效性来自于这样一个事实,即它只是共存比例(或相对一致性)。对于上面的数据片段,采用标称列A5x5使用1(两个人都属于同一类别)或0(两个人都不属于同一类别)计算平方对称矩阵。同样计算的矩阵B

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

将两个矩阵的对应项求和,然后除以2(标称变量的数量)-这里就是Dice系数矩阵。(因此,实际上,您不必创建用于计算Dice的虚拟变量,通过矩阵运算,您可能可以按照上述方法更快地完成该操作。)有关名义属性的关联,请参阅 Dice上的相关主题。

当您要在属性为分类的情况之间使用(不相似)函数时,尽管使用Dice是最明显的度量,但也可以使用其他二进制度量-如果发现它们的公式满足您对名义数据的考虑。

简单匹配(SM或Rand)类的度量一个+d一个+b+C+dddb+Cdd2=p1个-小号中号p

但是 ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

由于在邻近矩阵的许多应用中(例如在许多聚类分析方法中),结果在线性(有时甚至是单调)的邻近变换下不会改变或会平滑变化,因此似乎可以证明对大量近似值是合理的除了Dice以外的二元测量也可以得到相同或相似的结果。但是,您首先应该考虑/探索特定方法(例如,层次聚类中的链接)如何对给定的邻近度转换做出反应。

如果您计划的聚类或MDS分析对距离的单调变换很敏感,则最好不要使用上表中标为“单调”的度量(因此,是的,将Jaccard相似度或非平方欧氏距离与虚拟对象一起使用不是一个好主意) ,即以前的标称属性)。


是的,您是正确的值..因此,一个属性具有三个可能的值
Jane Doe 2013年

2
假设我有两个属性相同的值,“ ball”,“ nall”,“ pall”,并将其转换为11 01和00。我想测量11和00之间的Jaccard距离。在这种情况下,距离1?因为a = 0 b = 2 c = 0和d = 0?请告诉我!
Jane Doe 2013年

我想念你的最后一句话。请清楚地问。或者使用我上面的示例数据(具有5个人和2个名义属性),并告诉您要与我比较的个人以及通过什么差异(相似性)度量。
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.