1
文档摘要中的对数似然比
我最初是在堆栈溢出时问这个问题的,后来被提到这个站点,所以去了: 我正在实现基于内容选择/提取的文档摘要的一些无监督方法,我对我的教科书所说的“对数似然比”感到困惑。Jurafsky&Martin撰写的《语音和语言处理》一书对此进行了简要描述: 单词的LLR通常称为lambda(w),它是在输入语料库和背景语料库中观察w的概率(假设两个语料库中的概率相同)与在两个语料库中观察w的概率(假设存在不同概率)之间的比率。输入和背景语料库中的w。 分解一下,我们得到了分子:“在输入语料库和背景语料库中观察w的概率假设两个语料库中的概率相等”-如何计算在这里使用的概率? 分母:“在假设输入语料库和背景语料库中w的概率不同的情况下,观察w的概率”。-这是否像单词在输入中出现的概率乘以单词在语料库中出现的概率一样简单?例如: (数量(单词,输入)/输入中的单词总数)*(数量(单词,语料库)/语料中单词总数) 我一直在看我的书所引用的论文,《惊奇和巧合的统计的准确方法》(Dunning,1993年),但是我发现在基于提取的摘要中,很难为单个单词计算LLR值的问题。这里的任何澄清将不胜感激。