有关NLTK中的NER的帮助

12

我使用NLTK已有一段时间了。我面临的问题是，使用我的自定义数据对NLTK中的NER进行培训没有帮助。他们使用了MaxEnt并在ACE语料库上对其进行了培训。我在网上进行了很多搜索，但是找不到用于训练NLTK NER的任何方法。

如果有人可以向我提供任何链接/文章/博客等信息，这些链接/文章/博客等都可以将我定向到用于培训NLTK NER的培训数据集格式，那么我可以按照该特定格式准备数据集。并且，如果我被定向到可以帮助我训练自己的数据的NLNL的NER的任何链接/文章/博客等。

这是一个被广泛搜索且回答最少的问题。对于将来与NER合作的人可能会有所帮助。

machine-learning python nlp

— 萨尔玛德
source

交叉发布在quora.com/Help-on-training-NLTKs-NER

— Franck Dernoncourt

4

训练模型，涉及到信息提取，一般来说，和命名实体识别/分辨率（NER） ，特别是进行了详细描述第7章中的NLTK书，可在网上这个网址：的http：//www.nltk .org / book / ch07.html。

另外，我认为您可能会在“ 交叉验证”网站上找到我的相关答案有用。它对NER和相关主题的相关资源以及各种相关软件工具都有大量参考。

— 亚历山大·布莱克（Aleksandr Blekh）
source

他们没有提到如何在自定义数据上训练NER模型，您能说出如何做吗？

— Hima Varsha

1

@HimaVarsha我不是这方面的专家。但是，...我认为NLTK NER模型已经在conll2000语料库上进行了预训练，因此NLTK手册中没有任何信息。检查以下资源：1. nltk-trainer.readthedocs.io（最可能需要的内容；可能是“ 训练IOB块”部分）。2. sujitpal.blogspot.com/2012/11/...（可能也有用）。3. nlp.stanford.edu/software/crf-faq.shtml#a（如果您使用或将决定使用Stanford NER软件）。

— Aleksandr Blekh '16

我认为stanfordcrf实施确实需要自定义数据，但是NTLK NER只是经过预训练的。培训IOB Chunkers只是对了吗？还是NER呢？

— 希玛·瓦莎

@HimaVarsha请更多注意您得到的建议。如果您通过上面的链接2仔细阅读了文章，您会发现那里的代码既可以进行NER模型的训练，又可以进行运行。除了上述建议，我认为无法为您提供帮助。

— Aleksandr Blekh '16

3

这篇文章够好吗？ http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

这里有关于语料库外观的解释。

您的数据必须采用IOB格式（单词标签chunktag）才能正常工作。
Eric NNP B-PERSON
是VB O ，IN O
的AT B-NP
首席执行官NN I-NP Google NNP B-ORGANIZATION

— MaticDiba
source

1

在此答案中发布文章的简短摘要将是理想的。

— sheldonkreger 2015年

1

我发现本教程非常有帮助：使用Python构建自己的命名实体识别器的完整指南他使用Groningen意思银行（GMB）语料库来训练他的NER块。

之后，您可以从同一个人那里查看本教程：使用大数据集训练NER系统在他使用scikit的地方，学习提高系统性能。

最后，可以在这里找到一些非常有用的教程：NLTK教程这个家伙有一个youtube频道，其中包含许多主题（ML，NLP，Python等）的大量教程。

希望能帮助到你。

— 伊拉克利斯·穆迪迪斯（Iraklis Moutidis）
source