在NLP中,其中的概念Gazetteer
对于创建注释可能非常有用。据我所理解:
地名词典由一组列表组成,这些列表包含诸如城市,组织,星期几等实体的名称。这些列表用于查找文本中这些名称的出现,例如,用于命名实体的识别任务。
因此,它本质上是一个查找。这不是作弊吗?如果我们使用a Gazetteer
来检测命名实体,则不会有太多Natural Language Processing
事情发生。理想情况下,我想使用NLP
技术来检测命名实体。否则,它比正则表达式模式匹配器好吗?
在NLP中,其中的概念Gazetteer
对于创建注释可能非常有用。据我所理解:
地名词典由一组列表组成,这些列表包含诸如城市,组织,星期几等实体的名称。这些列表用于查找文本中这些名称的出现,例如,用于命名实体的识别任务。
因此,它本质上是一个查找。这不是作弊吗?如果我们使用a Gazetteer
来检测命名实体,则不会有太多Natural Language Processing
事情发生。理想情况下,我想使用NLP
技术来检测命名实体。否则,它比正则表达式模式匹配器好吗?
Answers:
地名词典或任何其他有意固定大小功能的选项在学术界似乎是一种非常流行的方法当您遇到有限大小的问题(例如,固定语料库中的NER,POS标记或其他任何东西)时,。除非您要使用的唯一功能是地名词典匹配,否则我不会认为这是欺骗。
但是,当您训练在训练时确实依赖字典的任何一种NLP模型时,您可能会获得比最初测试报告更低的真实性能,除非您可以将所有感兴趣的对象都包括在地名词典中(以及为什么然后您需要该模型吗?),因为您训练有素的模型将在某个时候依赖于该特征,并且在其他特征太弱或无法描述的情况下,将不会识别出新的关注对象。
如果确实在模型中使用了地名词典,则应确保该功能具有计数器功能以使模型自行平衡,这样简单的字典匹配就不会是肯定类的唯一功能(更重要的是,地名词典应不仅要匹配积极的例子,还要匹配消极的例子)。
例如,假设您确实具有所有人名的完整无穷变体集,这使普通人NER不相关,但是现在您尝试确定文本中提到的对象是否可以唱歌。您将依靠包含在“人”地名词典中的功能,这会给您带来很多误报;然后,您将添加一个以动词为中心的功能“ 是动词唱歌的主体 ”,这很可能会给您带来诸如鸟,饥饿时的肚子和的醉汉之类的各种物体的误报认为他会唱歌(但说实话,他不会)-但是以动词为中心的功能将与您的地名词典保持平衡,从而为人而不是动物或任何其他物体分配积极的“歌手”等级。虽然,这不能解决表演者醉酒的情况。