文档摘要中的对数似然比


9

我最初是在堆栈溢出时问这个问题的,后来被提到这个站点,所以去了:

我正在实现基于内容选择/提取的文档摘要的一些无监督方法,我对我的教科书所说的“对数似然比”感到困惑。Jurafsky&Martin撰写的《语音和语言处理》一书对此进行了简要描述:

单词的LLR通常称为lambda(w),它是在输入语料库和背景语料库中观察w的概率(假设两个语料库中的概率相同)与在两个语料库中观察w的概率(假设存在不同概率)之间的比率。输入和背景语料库中的w。

分解一下,我们得到了分子:“在输入语料库和背景语料库中观察w的概率假设两个语料库中的概率相等”-如何计算在这里使用的概率?

分母:“在假设输入语料库和背景语料库中w的概率不同的情况下,观察w的概率”。-这是否像单词在输入中出现的概率乘以单词在语料库中出现的概率一样简单?例如:

(数量(单词,输入)/输入中的单词总数)*(数量(单词,语料库)/语料中单词总数)

我一直在看我的书所引用的论文,《惊奇和巧合的统计的准确方法》(Dunning,1993年),但是我发现在基于提取的摘要中,很难为单个单词计算LLR值的问题。这里的任何澄清将不胜感激。


1
你能告诉我们这本教科书是什么吗?
一站式

Jurafsky和Martin的语音和语言处理
理查德(Richard)

Answers:


1

据我所知,我认为:

  1. “观察输入中的w的概率”需要分布以计算值
  2. “假设两个语料库中的概率相等,则在输入语料库和背景语料库中观察w的概率”是指“假设w。的概率在两个语料库中均相等,则观察w的可能性”。

这是我的公式:


提出一些问题:

  1. 假设1: P(输入w)= P(背景w)= p
  2. 假设2: P(输入中的w)= p1和P(背景中的w)= p2和p1 p2

关键部分是您需要在此处进行分配。简单地说,我们假定在文本中生成w的二项分布。给定样本数据,我们可以使用最大似然估计来计算p,p1和p2的值,它们是:

  1. p =(输入数量+背景数量)/(输入大小+背景大小)=(c1 + c2)/(N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

我们想知道哪种假设更有可能。因此,我们计算每个假设的可能性并相互比较(这基本上是似然比所做的事情)。

由于我们假设二项式分布,我们可以计算出具有c1和c2的可能性。

对于假设1:

L(c1)=在输入中观察w的概率=在假设概率p的N1个单词的情况下获得c1的可能性(换句话说,从N1次中为c1次选择w)为b(N1,c1 ,p)-请在此处查看二项式概率公式

L(c2)=在后台观察w的概率=在假设概率p为b(N2,c2,p)的情况下,当有N2个单词时达到c2的可能性

对于假设2,我们可以改用p1和p2。

现在我们想知道哪个假设更有可能;我们将需要一些如何比较每个假设的输出值的方法。

但是每个假设都有两个值L(c1)和L(c2)。我们如何比较哪个假设更有可能?---我们选择将它们相乘以实现单值输出。(我猜因为它类似于几何)


在您的项目中,p,p1和p2是p,p1和p2的估计,对吗?
西安

对,那是正确的。从统计学上讲,它们是给定样本数据和二项式分布的最大似然估计。
塔宁2015年

谢谢您指出,顺便说一句。我已经改善了答案。
塔宁2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.