Questions tagged «nltk»

Natural Language Toolkit是用于计算语言学的Python库。


15
使用nltk.data.load加载english.pickle失败
尝试加载punkt令牌生成器时... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... LookupError有人提出: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > - 'E:\\Python26\\lib\\nltk_data' > - 'C:\\Users\\Martinos\\AppData\\Roaming\\nltk_data' …
144 python  jenkins  nltk 


15
python中的n克,四克,五克,六克?
我正在寻找一种将文本拆分为n-gram的方法。通常我会做类似的事情: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams 我知道nltk仅提供二元组和三元组,但是有没有办法将我的文本分为四克,五克甚至一百克? 谢谢!
137 python  string  nltk  n-gram 

9
如何使用Python检查单词是否为英语单词?
我想检查Python程序中英语词典中是否有单词。 我相信可以使用nltk wordnet接口,但是我不知道如何将其用于如此简单的任务。 def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) 将来,我可能想检查单词的单数形式是否在字典中(例如,属性->属性->英语单词)。我将如何实现?
134 python  nltk  wordnet 


11
如何使用NLTK标记器消除标点符号?
我刚刚开始使用NLTK,但我不太了解如何从文本中获取单词列表。如果使用nltk.word_tokenize(),则会得到单词和标点的列表。我只需要这些词。我如何摆脱标点符号?同样word_tokenize不适用于多个句子:点号会添加到最后一个单词中。
125 python  nlp  tokenize  nltk 

12
如何使用nltk或python删除停用词
所以我有一个数据集,我想从中删除停用词 stopwords.words('english') 我在如何在我的代码中使用它以简单地取出这些单词的过程中苦苦挣扎。我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词。任何帮助表示赞赏。
109 python  nltk  stop-words 

7
如何检查scikit学习安装了哪个版本的nltk?
在shell脚本中,我正在检查是否已安装此软件包,如果未安装,请先安装它。因此,使用shell脚本: import nltk echo nltk.__version__ 但它会在以下位置停止shell脚本 import在行 在Linux终端中尝试以这种方式查看: which nltk 没有任何东西以为已安装。 还有没有其他方法可以在shell脚本中验证此软件包的安装,如果未安装,请同时安装。

26
安装几乎所有库的pip问题
我很难用pip安装几乎所有东西。我是编码的新手,所以我认为这可能是我做错了的事情,因此选择easy_install来完成我需要完成的大部分工作,而这种工作通常是有效的。但是,现在我正在尝试下载nltk库,但都没有完成任务。 我尝试进入 sudo pip install nltk 但得到以下回应: /Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013 Downloading/unpacking nltk Getting page https://pypi.python.org/simple/nltk/ Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm> Will …
101 python  pip  nltk  easy-install 

17
找不到资源u'tokenizers / punkt / english.pickle'
我的代码: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') 错误信息: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in …
96 python  unix  nltk 


6
Python:tf-idf-cosine:查找文档相似性
我正在关注第1 部分和第2 部分中可用的教程。不幸的是,作者没有时间进行最后一节,涉及使用余弦相似度实际找到两个文档之间的距离。我在stackoverflow的以下链接的帮助下关注了本文中的示例,其中包括上述链接中提到的代码(只是为了使生活更轻松) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords = stopwords.words('english') vectorizer …


4
使用NLTK创建新的语料库
我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多.txt文件,我希望能够使用NLTK为语料库提供的语料库功能nltk_data。 我已经尝试过,PlaintextCorpusReader但是我无法超越: >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() 如何newcorpus使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader类? 您还可以引导我介绍如何将分段数据写入文本文件吗?
83 python  nlp  nltk  corpus 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.