二进制数据的相似系数：为什么选择Jaccard而不是Russell和Rao？

20

从《统计科学百科全书》中，我了解到，给定二分（二进制：1 =存在； 0 =不存在）属性（变量），我们可以为样本的任意两个对象i和j形成列联表： $p$

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

我们可以根据这些值计算任意一对对象之间的相似系数，特别是雅卡德系数以及罗素和饶系数

\frac{一种}{一种 + b + C}

$\frac{a}{a+b+c}$

\frac{一种}{一种 + b + C + d} = \frac{一种}{p} 。

$\frac{a}{a+b+c+d} = \frac{a}{p}.$

在计算时，这些系数将给出不同的值，但是我找不到任何资源来解释为什么我应该选择一个而不是另一个。仅仅是因为对于某些数据集，同时缺少这两个属性（）并不能传达任何信息吗？ $d$

binary-data similarities association-measure

— wflynny
source

14

存在许多这样的系数（大多数在这里表示）。只需尝试思考公式差异的后果，尤其是在计算系数矩阵时。

例如，假设对象1和2与对象3和4类似。但是1和2具有列表中的许多属性，而3和4仅具有很少的属性。在这种情况下，Russell-Rao（共同属性在所考虑的属性总数中的比例）对于1-2对将为高，而对于3-4对将为低。但是，Jaccard（两个对象都具有的属性的共同属性的比例之和=如果两个对象中的任何一个都具有属性，那么它们都具有的概率）对1-2和3-4都很高。

对“按属性饱和”的基本级别的这种调整使Jaccard如此受欢迎，并且比Russell-Rao更加有用，例如在聚类分析或多维缩放中。从某种意义上讲，您可以通过选择

（ \frac{一种}{一种 + b} + \frac{一种}{一种 + C} ） / 2

$(\frac{a}{a+b} + \frac{a}{a+c}) /2$

\sqrt{\frac{一种}{一种 + b} \frac{一种}{一种 + C}}

$\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$

b

$b$

c

$c$

聚苯乙烯

仅仅是因为对于某些数据集，同时缺少两个属性（d）不会传达任何信息吗？

$d$

还请注意，如果您希望基于1+个名义属性（二分或多义）来计算对象之间的相似度，请将每个此类变量重新编码为一组伪二进制变量。然后，推荐的相似性度量，以计算将是骰子（其中，用于计算1+组虚拟变量时，相当于落合和Kulczynski-2）。

— ttnphns
source

2

对于两个以上类别的分类，通过所谓的“二分法”类推提出了各种术语。“多义”在语言上比“多义”更可取，“多义”是基于一个错误的猜测，即“两义”解析为两个希腊词根“ di”和“ chotomous”。使用拉丁词根会出错的“多选题”化合物。尽管拉丁语和希腊语具有不同根源的词在语言学家的鄙视中幸免于难（例如“电视”），但我建议在此使用“多词性”。

— Nick Cox

感谢您的提醒。我实际上知道您在说什么，并在不急的情况下尝试变得纯粹。我将对其进行编辑。

— ttnphns

3

当将分割与黄金标准进行比较时，在图像分析中可以明显看出Tanimoto系数优于传统精度（即Russell-Rao）的有用性。考虑以下两个图像：

在这些每个为二进制“蒙版”的图像中，我们有两个大小相同但放置在稍微不同的位置的对象，并且我们想通过评估它们的重叠程度来评估这些对象的形状和位置在多大程度上相同。通常是一个分割（例如紫色蒙版）（通过计算机算法生成），例如这可能是一种尝试从医学图像中定位心脏的尝试。另一个（例如绿色）是黄金标准（即由专业临床医生确定的心脏）。在白色的地方，两个形状重叠。黑色像素是背景。

这两个图像是相同的（即，分割算法的结果以及黄金标准在两个图像中都是相同的），除了第二个图像中有很多背景“填充”（例如，这可以代表两个实验）两种不同的X射线机，其中第二台X射线机具有更宽的射线，覆盖了更多的身体区域，但是在其他两个图像集中，心脏的大小是相同的。

显然，由于两个图像中的分割和黄金标准相同，因此，如果我们针对黄金标准评估分割精度，我们希望我们的指标在两个实验中输出相同的“准确性”结果。

但是，如果我们尝试使用Russel-Rao方法评估分割质量，则会对正确的图像（接近100％）产生误导性的高精度，因为“正确识别为背景像素的背景像素”对集合的整体准确性和背景像素在第二集合中不成比例地表示。我们想要在医学细分中评估其重叠的对象通常在大背景下都是很小的斑点，因此这对我们不是很有用。此外，如果我们试图将一种分割算法的准确性与另一种分割算法的准确性进行比较，并且在不同大小的图像上对这两种算法进行评估，这将导致问题！（或等效地，以不同的比例）。嵌入图像的缩放比例/大小应该不会影响根据黄金标准进行的分割评估！。

相比之下，tanimoto系数并不关心背景像素，从而使其对“比例”不变。因此，就tanimoto系数而言，这两个集合的相似性将是相同的，这使它成为我们用来评估分割算法质量的更有用的相似性度量。

— 塔索斯·帕帕斯蒂里亚努（Tasos Papastylianou）
source