Questions tagged «nlp»

自然语言处理(NLP)是人工智能的一个子领域,涉及从自然语言数据中转换或提取有用的信息。方法包括机器学习和基于规则的方法。


12
Twitter在Python中的情感分析[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 5年前关闭。 改善这个问题 我正在寻找文本情感分析(http://en.wikipedia.org/wiki/Sentiment_analysis)的开源实现,最好是python 。有谁熟悉我可以使用的开源实现? 我正在编写一个应用程序,该应用程序在Twitter上搜索某个搜索词,例如“ youtube”,并计算“快乐”推文与“悲伤”推文的数量。我正在使用Google的appengine,所以它在python中。我希望能够对来自Twitter的返回搜索结果进行分类,并且希望在python中进行分类。到目前为止,我还没有找到这样的情感分析器,特别是在python中。您熟悉我可以使用的这种开源实现吗?最好是已经在python中了,但是如果没有,希望我可以将其翻译成python。 请注意,我正在分析的文本非常简短,它们是推文。因此,理想地,此分类器针对此类短文本进行了优化。 顺便说一句,twitter确实在搜索中支持“ :)”和“ :(”运算符,其目的只是为了做到这一点,但是不幸的是,它们提供的分类并不是那么好,所以我想自己可以尝试一下。 谢谢! BTW,早期的演示是在这里和我至今的代码是在这里,我很愿意和任何有兴趣的开发者开源它。


4
使用NLTK创建新的语料库
我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多.txt文件,我希望能够使用NLTK为语料库提供的语料库功能nltk_data。 我已经尝试过,PlaintextCorpusReader但是我无法超越: >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() 如何newcorpus使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader类? 您还可以引导我介绍如何将分段数据写入文本文件吗?
83 python  nlp  nltk  corpus 

3
NLTK使用的实际示例
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 我在玩自然语言工具包(NLTK)。 它的文档(Book和HOWTO)非常庞大,示例有时会稍作改进。 有没有很好的NLTK用途/应用的基本示例?我正在考虑诸如Stream Hacker博客上的NTLK文章。
77 python  nlp  nltk 

5
了解scikit CountVectorizer中的min_df和max_df
我有五个输入到CountVectorizer的文本文件。为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思?是某个单词在其特定文本文件中的出现频率,还是整个整体语料库(5个txt文件)中该单词的出现频率? 当min_df和max_df作为整数或浮点数提供时有何不同? 该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的用法。有人可以提供说明min_df或max_df的说明或示例。

5
使用NLTK删除停用词
我正在尝试通过使用nltk工具包删除停用词来处理用户输入的文本,但是使用停用词删除功能会删除“和”,“或”,“不”之类的词。我希望这些词在停用词删除过程之后出现,因为它们是稍后将文本作为查询处理所必需的运算符。我不知道哪些字符可以作为文本查询中的运算符,我还想从文本中删除不必要的词。
76 python  nlp  nltk  stop-words 

3
词干比小种机
自然语言处理(NLP)(尤其是英语)已经发展到一个阶段,如果存在“完美”的词义修饰符,词干将成为古老的技术。这是因为词干将词/令牌的表面形式更改为一些毫无意义的词干。 然后,由于完全不同的NLP任务将需要不同程度的词法化,因此“完美”词法化器的定义还是有问题的。例如,在动词/名词/形容词形式之间转换单词。 词干 [in]: having [out]: hav 脱胶机 [in]: having [out]: have 所以问题是,英语词干今天是否有用?由于我们有大量的英语非母语化工具 如果不是,那么我们应该如何着手构建强大的lemmatizers可以取nounify,verbify,adjectify和adverbify 预处理? 词形化任务如何轻松地扩展到具有与英语相似的词法结构的其他语言?

3
Keras Tokenizer方法到底能做什么?
有时,我们需要执行以下操作: from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=my_max) 然后,我们总是吟诵此咒语: tokenizer.fit_on_texts(text) sequences = tokenizer.texts_to_sequences(text) 尽管我(或多或少)了解了总的效果,但是无论我做了多少研究(显然包括文档),我都无法弄清楚每个人分别做什么。我想我从来没有见过一个没有另一个。 那么,每个做什么?在任何情况下,您会使用其中一个而不使用另一个吗?如果不是,为什么不将它们简单地组合成如下形式: sequences = tokenizer.fit_on_texts_to_sequences(text) 很抱歉,如果我缺少明显的内容,但是我对此很陌生。
74 python  keras  nlp 

2
有开发聊天机器人的教程吗?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 5年前关闭。 改善这个问题 作为一名工程专业的学生,​​我想使用python做一个聊天机器人。因此,我进行了很多搜索,但找不到真正可以教我或无法提供一些具体信息来构建智能聊天机器人的东西。 我想创建一个聊天机器人,该机器人可以给出类似于人的响应(就像一个朋友在与您聊天)。我目前期望它只是笔记本电脑上的一种软件(希望稍后在IM,IRC或网站中实现)。 因此,我正在寻找教程/任何其他信息,这些信息肯定会帮助我完成项目。

6
给定2个句子字符串,计算余弦相似度
从Python:tf-idf-cosine:查找文档相似度,可以使用tf-idf余弦计算文档相似度。如果不导入外部库,是否有任何方法可以计算2个字符串之间的余弦相似度? s1 = "This is a foo bar sentence ." s2 = "This sentence is similar to a foo bar sentence ." s3 = "What is this string ? Totally not related to the other two lines ." cosine_sim(s1, s2) # Should give high cosine similarity cosine_sim(s1, s3) # Shouldn't …

8
Java中的模糊字符串搜索库
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 2年前关闭。 改善这个问题 我正在寻找一种用于模糊字符串搜索的高性能Java库。 有很多算法可以查找相似的字符串,Levenshtein距离,Daitch-Mokotoff Soundex,n-gram等。 存在哪些Java实现?对他们有利有弊?我知道Lucene,还有其他解决方案还是Lucene最好? 我找到了这些,有没有人有经验? SimMetrics NGramJ
71 java  nlp  fuzzy-search 

4
模糊字符串比较
我正在努力完成的是一个程序,该程序读取文件并根据原始句子比较每个句子。与原始句子完全匹配的句子将得到1分,而与之相反的句子将得到0分。所有其他模糊句子将得到1到0分之间的分数。 我不确定要使用哪种操作在Python 3中完成此操作。 我包括了示例文本,其中文本1是原始文本,其他前面的字符串是比较文本。 文字:样本 文字1:那是一个黑暗而暴风雨的夜晚。我一个人坐在红色的椅子上。我并不孤单,因为我只有三只猫。 文字20:那是一个阴暗而暴风雨的夜晚。我一个人坐在深红色的椅子上。我并不孤单,因为我有三只猫科动物//应该得分高而不是1 文字21:那是一个阴暗而狂暴的夜晚。我一个人坐在一个深红色的大教堂上。我并不孤单,因为我有三只猫科动物//分数应低于文字20 文字22:我一个人坐在一个深红色的大教堂上。我并不孤单,因为我有三只猫科动物。那是一个阴暗而暴风雨的夜晚。//分数应低于文字21,但不能低于0 文字24:那是一个黑暗而暴风雨的夜晚。我并不孤单。我没有坐在红色的椅子上。我有三只猫。//应该得分为0!

4
如何从一系列文本输入中提取常用/重要短语
我有一系列文本项-来自MySQL数据库的原始HTML。我想在这些条目中找到最常用的短语(而不是单个最常用的短语,理想情况下,不强制单词对单词的匹配)。 我的示例是Yelp.com上的任何评论,其中以给定餐厅的数百条评论显示了3个摘要,格式为: “尝试汉堡”(共44条评论) 例如,此页面的“评论重点”部分: http://www.yelp.com/biz/sushi-gen-los-angeles/ 我已经安装了NLTK,并且已经对其进行了一些尝试,但是老实说,这些选择让他们不知所措。这似乎是一个相当普遍的问题,我无法通过在此处搜索找到简单的解决方案。

3
如何为给定域构建语义搜索
我们正在尝试解决一个问题,即我们想对数据集进行语义搜索,即我们拥有特定领域的数据(例如:谈论汽车的句子) 我们的数据只是一堆句子,我们想要的是给出一个短语并取回以下句子: 类似于该短语 句子的一部分与短语相似 具有上下文相似含义的句子 让我尝试举一个例子,假设我搜索短语“ Buying Experience”,我应该得到如下句子: 我从没想过汽车购买可以花费不到30分钟的时间进行签名和购买。 我找到了我喜欢的汽车,购买过程 简单明了 我绝对讨厌去购物,但今天我很高兴 我想强调的事实是,我们正在寻找上下文相似性,而不仅仅是蛮力的单词搜索。 如果句子使用不同的单词,那么它也应该能够找到它。 我们已经尝试过的事情: 开放式语义搜索我们面临的问题是从我们拥有的数据中生成本体,或者为此而从我们感兴趣的不同领域中搜索可用的本体。 弹性搜索(BM25 + Vectors(tf-idf)),我们尝试了一下,它给出了一些句子,但精度却不高。准确性也很差。我们尝试使用人类策划的数据集,该数据集只能获得大约10%的句子。 我们尝试了不同的嵌入,例如曾经在句子变形器中提到的嵌入,并且还通过了示例,并尝试根据我们人类策划的集合进行评估,而且准确性也很低。 我们尝试了ELMO。这比我们预期的要好,但准确性仍然较低,并且存在决定余弦值的认知负担,低于该值我们不应考虑这些句子。这甚至适用于第3点。 任何帮助将不胜感激。非常感谢您的提前帮助
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.