NLP-地名词典是作弊吗?


16

在NLP中,其中的概念Gazetteer对于创建注释可能非常有用。据我所理解:

地名词典由一组列表组成,这些列表包含诸如城市,组织,星期几等实体的名称。这些列表用于查找文本中这些名称的出现,例如,用于命名实体的识别任务。

因此,它本质上是一个查找。这不是作弊吗?如果我们使用a Gazetteer来检测命名实体,则不会有太多Natural Language Processing事情发生。理想情况下,我想使用NLP技术来检测命名实体。否则,它比正则表达式模式匹配器好吗?


2
我不会称其为欺骗……除非您专门设计为使用非字典式查找解决方案。我也不会称其为传统的NLP,尽管您永远都不应忽视从简单的问题解决方案中可以获得的实质性收益。
凯尔。

1
您也许可以使用它来训练命名实体识别器。您的地名词典将如何处理不在其主体中的实体?
Emre'1

我希望通过正确使用pos标签和名词块,我永远不需要地名词典。那可能吗?
AbtPst

2
在工业中,没有作弊之类的东西。:-)但是,无论如何,如果您想使用“通用方法”,则需要从一些手工注释的数据(即种子)开始,以了解NE出现的上下文,以了解更多NE。
亚当·比特林迈耶

Answers:


15

地名词典或任何其他有意固定大小功能的选项在学术界似乎是一种非常流行的方法当您遇到有限大小的问题(例如,固定语料库中的NER,POS标记或其他任何东西)时,。除非您要使用的唯一功能是地名词典匹配,否则我不会认为这是欺骗。

但是,当您训练在训练时确实依赖字典的任何一种NLP模型时,您可能会获得比最初测试报告更低的真实性能,除非您可以将所有感兴趣的对象都包括在地名词典中(以及为什么然后您需要该模型吗?),因为您训练有素的模型将在某个时候依赖于该特征,并且在其他特征太弱或无法描述的情况下,将不会识别出新的关注对象。

如果确实在模型中使用了地名词典,则应确保该功能具有计数器功能以使模型自行平衡,这样简单的字典匹配就不会是肯定类的唯一功能(更重要的是,地名词典应不仅要匹配积极的例子,还要匹配消极的例子)。

例如,假设您确实具有所有人名的完整无穷变体集,这使普通人NER不相关,但是现在您尝试确定文本中提到的对象是否可以唱歌。您将依靠包含在“人”地名词典中的功能,这会给您带来很多误报;然后,您将添加一个以动词为中心的功能“ 是动词唱歌的主体 ”,这很可能会给您带来诸如鸟,饥饿时的肚子和的醉汉之类的各种物体的误报认为他会唱歌(但说实话,他不会)-但是以动词为中心的功能将与您的地名词典保持平衡,从而为人而不是动物或任何其他物体分配积极的“歌手”等级。虽然,这不能解决表演者醉酒的情况。


4

使用实体列表有几个缺点:

  • 清单已关闭
  • 该列表不是上下文敏感的。您需要上下文以区分“白宫”和“白宫”。
  • 列表构建需要大量人力
  • 列表也可能包含错误。
  • 确实感觉像是作弊(或列表中没有使用NLP见解)。

您可以按照建议的@emre方向处理这些缺点,并使用列表来学习分类器。

例如,您可以在实体附近使用标记并学习规则,例如“我住在X处”表示一个地点,而“我与X交谈”则表示一个人。您可以通过按规则的点击数增加列表数来玩此游戏几轮,并使用新列表来了解更多规则。

请不要在本次学习中将噪声引入数据中,因此在大多数情况下,学习应该非常简单。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.