Questions tagged «nlp»

自然语言处理(NLP)是人工智能的一个子领域,涉及从自然语言数据中转换或提取有用的信息。方法包括机器学习和基于规则的方法。

18
Google如何表达“您的意思?” 算法工作?
我一直在为投资组合管理工具开发内部网站。有很多文本数据,公司名称等。我对某些搜索引擎能够以“您的意思是:xxxx”快速响应查询的能力印象深刻。 我需要能够智能地进行用户查询,并不仅要响应原始搜索结果,还要响应“您是不是要这么做?” 当有非常可能的替代答案时的响应等 [我正在ASP.NET中开发(VB-不要反对我!)] 更新:好的,如果没有成千上万的“未付费用户”,我该如何模仿呢? 为每个“已知”或“正确”术语生成拼写错误并执行查找? 还有其他更优雅的方法吗?


10
Java Stanford NLP:语音标签的一部分?
在此处演示的Stanford NLP 给出如下输出: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. 词性标签是什么意思?我找不到正式名单。是斯坦福大学自己的系统,还是使用通用标签?(JJ例如,什么是?) 同样,当我遍历句子时,例如寻找名词时,我最终会做类似检查标签是否的事情.contains('N')。这感觉很虚弱。是否有更好的方法以编程方式搜索语音的某个部分?

15
检测单词中的音节
我需要找到一种相当有效的方法来检测单词中的音节。例如, 看不见-> in-vi-sib-le 可以使用一些音节化规则: V CV VC CVC CCV CCCV CVCC *其中V是元音,C是辅音。例如, 发音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC) 我尝试了几种方法,其中包括使用正则表达式(仅在您要计算音节时才有用)或硬编码规则定义(被证明是效率很低的蛮力方法),最后使用了有限状态自动机(没有任何有用的结果)。 我的应用程序的目的是创建给定语言的所有音节的字典。该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成。 如果能在我以前的方法之外给我提示另一种解决此问题的方法,我将不胜感激。 我使用Java,但是使用C / C ++,C#,Python,Perl的任何技巧都可以为我工作。


6
苹果如何找到电子邮件中的日期,时间和地址?
在iOS电子邮件客户端中,当电子邮件中包含日期,时间或位置时,文本将成为超链接,并且只需点击链接即可创建约会或查看地图。它不仅适用于英语的电子邮件,还适用于其他语言的电子邮件。我喜欢这个功能,并且想了解他们是如何做到的。 天真的方法是拥有许多正则表达式并全部运行它们。但是我无法很好地扩展,只能用于特定的语言或日期格式等。我认为Apple必须使用某种机器学习的概念来提取实体(8:00 PM、8PM、8:00, 0800、20:00、20h,20h00、2000等)。 知道Apple如何能够在其电子邮件客户端中如此快速地提取实体吗?您将应用哪种机器学习算法来完成此类任务?

11
如何使用NLTK标记器消除标点符号?
我刚刚开始使用NLTK,但我不太了解如何从文本中获取单词列表。如果使用nltk.word_tokenize(),则会得到单词和标点的列表。我只需要这些词。我如何摆脱标点符号?同样word_tokenize不适用于多个句子:点号会添加到最后一个单词中。
125 python  nlp  tokenize  nltk 


2
Java或Python用于自然语言处理
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 6年前关闭。 改善这个问题 我想知道哪种编程语言更适合自然语言处理。Java还是Python?我发现了很多与此有关的问题和答案。但是我仍然迷失在选择使用哪一个上。 我想知道用于Java的NLP库,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP)。对于Python,大多数程序员都建议使用NLTK。 但是,如果我要对非结构化数据(只是自由格式的纯英文文本)进行一些文本处理或信息提取,以获得一些有用的信息,那么最佳选择是什么?Java还是Python?合适的图书馆? 更新 我要做的是从非结构化数据中提取有用的产品信息(例如,用户使用不太标准的英语来制作有关手机或笔记本电脑的不同形式的广告)
112 java  python  nlp 

21
我该如何词干或词法化?
我已经尝试过PorterStemmer和Snowball,但都无法在所有单词上使用,缺少一些非常常见的单词。 我的测试词是:“ 猫跑了仙人掌仙人掌社区仙人掌 ”,并且两人都获得了不到一半的权利。 也可以看看: 产生实词的词干算法 提取-代码示例还是开源项目?

4
如何使用scikit learning计算多类案例的精度,召回率,准确性和f1-得分?
我正在研究情绪分析问题,数据看起来像这样: label instances 5 1190 4 838 3 239 1 204 2 127 所以,我的数据是不平衡的,因为1190 instances标有5。对于使用scikit的SVC进行的分类Im 。问题是我不知道如何以正确的方式平衡我的数据,以便准确计算多类案例的精度,查全率,准确性和f1得分。因此,我尝试了以下方法: 第一: wclf = SVC(kernel='linear', C= 1, class_weight={1: 10}) wclf.fit(X, y) weighted_prediction = wclf.predict(X_test) print 'Accuracy:', accuracy_score(y_test, weighted_prediction) print 'F1 score:', f1_score(y_test, weighted_prediction,average='weighted') print 'Recall:', recall_score(y_test, weighted_prediction, average='weighted') print 'Precision:', precision_score(y_test, weighted_prediction, average='weighted') print '\n …

3
如何用Genia Corpus训练Stanford Parser?
我在为Stanford Parser创建新模型时遇到一些问题。 我还从斯坦福下载了最新版本:http : //nlp.stanford.edu/software/lex-parser.shtml 在这里,Genia Corpus有2种格式,即xml和ptb(Penn Treebank)。 Standford Parser可以训练ptd文件;然后我下载了Genia Corpus,因为我想使用生物医学文本: http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz) 然后,我有一个简短的Main类来获取一个生物医学句子的依存关系表示形式: String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); 我尝试了不同的方法,但始终得到相同的结果。 我在最后一行有一个错误。这是我的输出: Currently Fri Jun 01 15:02:57 CEST 2012 Options parameters: useUnknownWordSignatures 2 smoothInUnknownsThreshold 100 smartMutation false useUnicodeType false unknownSuffixSize 1 unknownPrefixSize 1 flexiTag …
93 java  nlp  stanford-nlp 

23
如何为单词加上“ a”和“ an”前缀?
我有一个.NET应用程序,在其中给定了一个名词,我希望它为该单词加上“ a”或“ an”前缀。我该怎么做? 在您认为答案只是简单地检查第一个字母是否是元音之前,请考虑以下短语: 一个诚实的错误 二手车
92 c#  nlp  linguistics 


3
有没有好的自然语言处理库[关闭]
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案会得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意测验或进一步的讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 我需要在当前模块中实现一些NLP。我正在寻找可以在这里为我提供帮助的优质图书馆。我遇到过“ LingPipe”,但无法完全了解如何使用它。 基本上,我们需要实现一项功能,使应用程序可以解密以纯英语键入的客户说明(交付说明)。例如: 将于明天中午12:00接载 6月10日之后要求交货 请不要在星期三之前发送 将XYZ再增加10个单位
90 java  nlp 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.