从《统计科学百科全书》中,我了解到,给定二分(二进制:1 =存在; 0 =不存在)属性(变量),我们可以为样本的任意两个对象i和j形成列联表:
j
1 0
-------
1 | a | b |
i -------
0 | c | d |
-------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.
我们可以根据这些值计算任意一对对象之间的相似系数,特别是雅卡德系数 以及罗素和饶系数 a
在计算时,这些系数将给出不同的值,但是我找不到任何资源来解释为什么我应该选择一个而不是另一个。仅仅是因为对于某些数据集,同时缺少这两个属性()并不能传达任何信息吗?