Questions tagged «nlp»

自然语言处理(NLP)是计算机科学,人工智能和语言学领域中与计算机和人类(自然)语言之间的交互相关的领域。因此,自然语言处理与人机交互领域有关。NLP中的许多挑战涉及自然语言理解,即使计算机能够从人类或自然语言输入中获取含义,而其他挑战则涉及自然语言生成。


5
句子相似度的最佳实用算法
我有两个句子S1和S2,它们的字数通常都在15以下。 什么是最实用,最成功的(机器学习)算法,这些算法可能易于实现(神经网络可以,除非架构像Google Inception等那样复杂)。 我正在寻找一种不会花太多时间就能正常工作的算法。您是否发现任何成功且易于使用的算法? 这可以但不必属于群集类别。我的背景是机器学习的知识,所以欢迎提出任何建议:)

1
NLP-为什么“不”是一个停用词?
我试图在执行主题建模之前删除停用词。我注意到一些否定词(不是,也不是,从不,等等)通常被认为是停用词。例如,NLTK,spacy和sklearn在其停用词列表中包含“ not”。但是,如果我们从下面的这些句子中删除“否”,则它们将失去重要的含义,对于主题建模或情感分析而言,这将是不准确的。 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful 谁能解释为什么这些否定词通常被视为停用词?

4
提高python中t-sne实现的速度以处理海量数据
我想对将近100万个具有200个维度的向量进行降维doc2vec。我使用TSNE从执行sklearn.manifold模块它和主要问题是时间复杂度。即使使用method = barnes_hut,计算速度仍然很低。有时甚至耗尽了内存。 我正在具有130G RAM的48核处理器上运行它。是否有一种方法可以并行运行它或利用大量资源来加快此过程。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
NLP-地名词典是作弊吗?
在NLP中,其中的概念Gazetteer对于创建注释可能非常有用。据我所理解: 地名词典由一组列表组成,这些列表包含诸如城市,组织,星期几等实体的名称。这些列表用于查找文本中这些名称的出现,例如,用于命名实体的识别任务。 因此,它本质上是一个查找。这不是作弊吗?如果我们使用a Gazetteer来检测命名实体,则不会有太多Natural Language Processing事情发生。理想情况下,我想使用NLP技术来检测命名实体。否则,它比正则表达式模式匹配器好吗?

2
从文档中提取文本的大部分信息
是否有关于提取部分文本的文章或讨论,其中包含有关当前文档的大部分信息。 例如,我有来自同一域的大量文档。文本的某些部分包含单个文档所讨论的关键信息。我想提取其中一些部分,并将其用作文本的摘要。是否有关于如何实现此类目标的有用文档。 如果有人可以将我指引到正确的方向,这对我应该寻找或阅读的内容会有所帮助,那么我将对自然语言处理这一领域中可能已经完成的工作有所了解。
16 nlp  text-mining 

3
基于单词和基于字符的文本生成RNN有什么区别?
在阅读有关使用递归神经网络生成文本的信息时,我注意到一些示例被实现为逐个单词地生成文本,而另一些字符则逐个字符地生成,而没有实际说明原因。 那么,是什么,预测文本RNN模型之间的区别每个字的基础,并且预测文本的那些每个字符的基础?基于单词的RNN是否需要更大的语料库大小?基于char的RNN泛化效果更好吗?也许唯一的区别是输入表示形式(单热编码,单词嵌入)?选择哪种文本生成方式?

4
两个词之间的相似性
我正在寻找一个Python库,该库可以帮助我识别两个单词或句子之间的相似性。 我将进行音频到文本的转换,这将导致英语词典或非词典单词(这可能是个人或公司名称)。此后,我需要将其与已知单词进行比较。 例: 1)文本到音频结果:感谢您致电America Expansion, 将其与American Express进行比较。 两个句子在某种程度上相似但不相同。 看来我可能需要研究他们共享多少个字符。任何想法都会很棒。看起来像Google搜索的“您是不是要”功能。
15 nlp  nltk 

5
句子相似度预测
我正在寻求解决以下问题:我有一组句子作为我的数据集,并且我希望能够键入一个新句子,并找到该新句子与数据集中最相似的句子。一个示例如下所示: 新句子:“ I opened a new mailbox” 基于数据集的预测: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% 我已经读到余弦相似度可以用来解决与tf-idf配对的这类问题(RNN不应对基本方法带来重大改进),或者word2vec也可以用于相似的问题。那些在这种特定情况下实际可行吗?是否有其他技术/算法可以解决此问题(最好使用Python和SKLearn,但我也愿意学习TensorFlow)?

4
如何使用预先训练的模型权重初始化新的word2vec模型?
我在python中使用Gensim库来使用和训练word2vector模型。最近,我正在考虑使用一些预先训练的word2vec模型(例如GoogleNewDataset预训练模型)来初始化模型权重。我一直在努力奋斗了几周。现在,我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙!!!

2
在NLP的分类过程中,解析树通常使用哪些功能?
我正在探索不同类型的解析树结构。两种广为人知的解析树结构是:a)基于选区的解析树和b)基于依赖关系的解析树结构。 我可以使用Stanford NLP包生成两种类型的解析树结构。但是,我不确定如何将这些树结构用于分类任务。 例如,如果我想进行情感分析并将文本分类为肯定和否定类别,那么对于我的分类任务,我可以从解析树结构中得出哪些特征?

1
深度学习中的一维卷积层是什么?
我对2D或3D实施情况下深度学习中卷积层在图像处理中的作用和机制有很好的一般理解-他们“简单地”尝试捕获图像中的2D模式(在3D情况下为3个通道)。 但是最近我在自然语言处理的背景下遇到了1D卷积层,这对我来说是一个惊喜,因为在我的理解中2D卷积尤其用于捕获无法以1D(矢量)形式显示的2D模式。图像像素。一维卷积背后的逻辑是什么?

3
SQL的自然语言查询
我一直在开发系统“将自然语言转换为SQL查询”。 我已经阅读了类似问题的答案,但无法获得我正在寻找的信息。 以下是我从Garima Singh,Arun Solanki的《将自然语言转换为关系数据库的SQL查询的算法》中获得的此类系统的流程图。 直到语音标记步骤的一部分,我才明白。但是我该如何处理其余步骤。 我是否需要训练所有可能的SQL查询? 或者,一旦完成语音标记的一部分,我就必须使用这些单词并形成一个SQL查询? 编辑:我已经成功实现了从步骤“用户查询”到“语音标记”。 谢谢。

1
那么LSTM有什么收获呢?
我正在扩展我对Keras软件包的了解,并且一直在使用一些可用的模型作为工具。我有一个NLP二进制分类问题,我正在尝试解决,并且一直在应用不同的模型。 在获得了一些结果并越来越多地了解LSTM之后,看来这种方法远远优于我尝试过的任何方法(跨多个数据集)。我一直在想自己,“为什么/何时不使用LSTM?”。在某些模型的梯度逐渐消失之后,使用LSTM固有的附加门对我来说非常有意义。 那么LSTM有什么收获呢?他们在哪里做得不好?我知道没有“一刀切”的算法,因此LSTM必须有一个缺点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.