我试图弄清楚如何计算群集算法的兰德指数,但我被困在如何计算真假阴性的问题上。
目前,我正在使用《信息检索入门》一书中的示例(Manning,Raghavan和Schütze,2009年)。在第359页,他们讨论了如何计算兰德指数。在此示例中,他们使用三个群集,并且这些群集包含以下对象。
- a
- abbbbc
- 交流会
我替换了对象(原始符号改为字母,但是想法和计数保持不变)。我将给出书中确切的词,以查看他们在说什么:
我们首先计算TP + FP。这三个群集分别包含6、6和5个点,因此同一群集中的“阳性”或成对的文档总数为:
TP + FP = + + = 15 + 15+ 10 = 40
其中,簇1中的a对,簇2中的b对,簇3中的c对以及簇3中的a对为正数:
TP = + + + = 10 + 6 + 3 +1 = 20
因此,FP = 40-20 = 20。
到这里为止,计算是很清楚的,如果以其他示例为例,我将得到相同的结果,但是当我要计算假负和真负Manning等人时。陈述以下内容:
FN和TN的计算方法类似,得出以下列联表:
列联表如下:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
我不太清楚这句话:“ FN和TN的计算方式相似”,我不明白我需要计算哪个数字才能计算TN和FN。我可以通过执行以下操作来计算表格的右侧:
TP + FP + FN + TN = = = 136
资料来源:http : //en.wikipedia.org/wiki/Rand_index
因此,FN + TN = 136-TP + FP = 136-40 = 96,但这并不能真正帮助我确定如何分别计算变量。特别是当作者说:“ FN和TN的计算方法相似时”。我不知道如何。同样,当我查看其他示例时,它们通过查看每一对来计算列联表的每个单元格。
例如:http : //www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
我的第一个问题是基于Manning等人(2009)的示例,如果仅了解TP和NP,是否可以计算TN和FN?如果是这样,根据给定的示例,类似的计算结果如何?