使用NLTK创建新的语料库
我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多.txt文件,我希望能够使用NLTK为语料库提供的语料库功能nltk_data。 我已经尝试过,PlaintextCorpusReader但是我无法超越: >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() 如何newcorpus使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader类? 您还可以引导我介绍如何将分段数据写入文本文件吗?