折扣累积收益(DCG)是用于评估任何搜索引擎排名的最受欢迎的指标之一。这是排名质量的度量。在信息检索中,它通常用于衡量Web搜索引擎的有效性。
它基于以下假设:
- 如果相关性较高的文档出现在搜索结果的前面,则更为有用。
- 高度相关的文档比边缘相关的文档要有用,后者比不相关的文档要好。
DCG的公式如下:
DCGp=∑i=1prelilog2(i+1)=rel1+∑i=2prelilog2(i+1)(1)
哪里:
- i是搜索结果中文档的返回位置。
- reli是文档的分级相关性
- 因此,对p求和(返回的结果数)的累加累积增益就可以得出返回结果的性能指标。
DCG来自CG(累积增益),由下式给出:
CGp=∑i=1preli(2)
从(2)可以看出,不会因结果顺序的改变而改变。因此为了克服这个问题,引入了DCG。DCG有另一种形式,因非常重视文档的检索而广受欢迎。DCG的此版本由以下方式提供:CGp
DCGp=∑i=1p2reli−1log2(i+1)(3)
(1)和(3)中提出的DCG方程的一个明显缺点是,不能有效地比较返回不同数量结果的算法。这是因为的值越高,的值将被缩放到越高。pDCGp
为了克服这个问题,提出了标准化的DCG(nDCG)。它是由
nDCGp=DCGpIDCGp
其中是理想,由下式给出:IDCGpDCGp
IDCGp=∑i=1|REL|2reli−1log2(i+1)
| REL | 是根据语料库中相关性排序到位置p的文档列表。
对于完美的排名算法,
DCGp=IDCGp
由于nDCG的值在[0,1]范围内缩放,因此使用这些指标可以进行交叉查询比较。
缺点:
1. nDCG不会惩罚检索结果中的不良文档。这可以通过调整归因于文档的相关性值来解决。2. nDCG不会对丢失的文件进行处罚。可以通过固定检索大小并使用丢失文档的最低分数来解决此问题。
请参阅此以查看nDCG的示例计算。
参考