有关NLTK中的NER的帮助


12

我使用NLTK已有一段时间了。我面临的问题是,使用我的自定义数据对NLTK中的NER进行培训没有帮助。他们使用了MaxEnt并在ACE语料库上对其进行了培训。我在网上进行了很多搜索,但是找不到用于训练NLTK NER的任何方法。

如果有人可以向我提供任何链接/文章/博客等信息,这些链接/文章/博客等都可以将我定向到用于培训NLTK NER的培训数据集格式,那么我可以按照该特定格式准备数据集。并且,如果我被定向到可以帮助我训练自己的数据的NLNL的NER的任何链接/文章/博客等。

这是一个被广泛搜索且回答最少的问题。对于将来与NER合作的人可能会有所帮助。


Answers:


4

训练模型,涉及到信息提取,一般来说,和命名实体识别/分辨率(NER) ,特别是进行了详细描述第7章中的NLTK书,可在网上这个网址:的http://www.nltk .org / book / ch07.html

另外,我认为您可能会在“ 交叉验证”网站上找到我的相关答案有用。它对NER和相关主题的相关资源以及各种相关软件工具都有大量参考。


他们没有提到如何在自定义数据上训练NER模型,您能说出如何做吗?
Hima Varsha

1
@HimaVarsha我不是这方面的专家。但是,...我认为NLTK NER模型已经在conll2000语料库上进行了预训练,因此NLTK手册中没有任何信息。检查以下资源:1. nltk-trainer.readthedocs.io(最可能需要的内容;可能是“ 训练IOB块”部分)。2. sujitpal.blogspot.com/2012/11/...(可能也有用)。3. nlp.stanford.edu/software/crf-faq.shtml#a(如果您使用或将决定使用Stanford NER软件)。
Aleksandr Blekh '16

我认为stanfordcrf实施确实需要自定义数据,但是NTLK NER只是经过预训练的。培训IOB Chunkers只是对了吗?还是NER呢?
希玛·瓦莎

@HimaVarsha请更多注意您得到的建议。如果您通过上面的链接2仔细阅读了文章,您会发现那里的代码既可以进行NER模型的训练,又可以进行运行。除了上述建议,我认为无法为您提供帮助。
Aleksandr Blekh '16


1

我发现本教程非常有帮助:使用Python构建自己的命名实体识别器的完整指南 他使用Groningen意思银行(GMB)语料库来训练他的NER块。

之后,您可以从同一个人那里查看本教程:使用大数据集训练NER系统在他使用scikit的地方,学习提高系统性能。

最后,可以在这里找到一些非常有用的教程:NLTK教程 这个家伙有一个youtube频道,其中包含许多主题(ML,NLP,Python等)的大量教程。

希望能帮助到你。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.