所以我有一个数据集,我想从中删除停用词
stopwords.words('english')
我在如何在我的代码中使用它以简单地取出这些单词的过程中苦苦挣扎。我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词。任何帮助表示赞赏。
4
您从哪里获得停用词?这是NLTK的吗?
—
tumultous_rooster 2014年
@ MattO'Brien
—
-danodonovan
from nltk.corpus import stopwords
供未来的Google员工使用
nltk.download("stopwords")
为了使停用词词典可用,还必须运行。
请注意,诸如“ not”之类的单词在nltk中也被视为停用词。如果您进行情感分析,垃圾邮件过滤之类的操作,否定可能会改变句子的整个含义,并且如果从处理阶段中删除它,则可能无法获得准确的结果。
—
达科夫,