Questions tagged «word-embeddings»

词嵌入是NLP中一组语言建模和特征学习技术的总称,其中词相对于词汇量,被映射到低维空间中的实数向量。

4
噪声对比估计(NCE)损失的直观解释?
我从以下两个来源了解到NCE(一种候选抽样形式): Tensorflow写 原始纸 有人可以为我提供以下帮助: NCE的工作原理的简单说明(我发现上面的内容很难解析和理解,因此直观的方法可以很好地介绍此处的数学知识) 在上面的第1点之后,自然而然地描述了它与负采样有何不同。我可以看到公式略有变化,但无法理解数学。在以下情况下,我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本,V并仅对那些样本进行更新,因为它们|V|很大,因此可以加快速度。如果有误,请更正。 何时使用哪一个,如何决定?如果您可以包括示例(可能易于理解的应用程序),那就太好了。 NCE比负采样好吗?哪种方式更好? 谢谢。

3
对Word2Vec更好的输入是什么?
这更像是一般的NLP问题。训练单词嵌入即Word2Vec的适当输入是什么?属于文章的所有句子是否应该是语料库中的单独文档?还是每个文章都应该是所述语料库中的文档?这只是使用python和gensim的示例。 语料库按句子拆分: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] 语料库按文章划分: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …

2
使用Word2vec模型预测单词
给出一个句子:“当我打开??门时,它会自动开始加热” 我想获得??中可能的单词的列表 很有可能。 word2vec模型中使用的基本概念是根据周围环境“预测”单词。 一旦建立模型,什么是正确的上下文向量运算以对新句子执行我的预测任务? 它仅仅是线性和吗? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
如何衡量单词的语义相似性?
找出单词语义相似性的最佳方法是什么?Word2Vec可以,但不理想: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTK的Wordnet方法似乎只是放弃: In [25]: …

2
Doc2Vec-如何标记段落(gensim)
我想知道如何从gensim中使用doc2vec在gensim中标记(标记)句子/段落/文档。 您是否需要使每个句子/段落/文档带有自己的唯一标签(例如“ Sent_123”)?如果您想说“哪些单词或句子与标记为“ Sent_123”的单个特定句子最相似”,这似乎很有用。 能否根据内容重复标签?例如,如果每个句子/段落/文档都与某个特定产品有关(并且给定产品项目有多个句子/段落/文档),则可以根据该项目为句子加上标签,然后计算单词或词组之间的相似度句子和这个标签(我想这将是与产品有关的所有句子的平均值)?

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
如何使用预先训练的模型权重初始化新的word2vec模型?
我在python中使用Gensim库来使用和训练word2vector模型。最近,我正在考虑使用一些预先训练的word2vec模型(例如GoogleNewDataset预训练模型)来初始化模型权重。我一直在努力奋斗了几周。现在,我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙!!!

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


3
Word2Vec和Doc2Vec是分布式表示还是分布式表示?
我已经读过分布表示法是基于分布假设的,即在相似上下文中出现的单词往往具有相似的含义。 Word2Vec和Doc2Vec都根据此假设建模。但是,在原始论文中,即使它们的标题也为Distributed representation of words and phrases和Distributed representation of sentences and documents。因此,这些算法是基于分布表示还是分布式表示。 其他模型(例如LDA和LSA)如何?

1
文本分类问题:Word2Vec / NN是最好的方法吗?
我正在设计一个系统,使给定的一段文本能够对其进行分类并确定上下文: 经过用户生成的文本段落(如评论/问题/答案)的培训 训练集中的每个项目都将标有。因此,例如(“类别1”,“文本段落”) 将有数百个类别 建立这样一个系统的最佳方法是什么?我一直在研究几个不同的选项,以下是可能的解决方案的列表。Word2Vec / NN目前是最佳解决方案吗? 递归神经张量网络馈送了平均Word2Vec数据 RNTN和段落向量(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)? 深度信仰网络中使用的TF-IDF TF-IDF和Logistic回归 单词袋和朴素贝叶斯分类

1
word2vec需要多少训练数据?
我想比较不同来源提到的同一单词之间的差异。也就是说,作者在使用诸如“民主”之类的定义不清的单词时有何不同。 一个简短的计划是 以提及“民主”一词的书籍为纯文本 在每本书中,替换democracy为democracy_%AuthorName% word2vec在这些书上训练模型 计算之间的距离democracy_AuthorA,democracy_AuthorB和“民主”的其他提及重新标记 因此,每个作者的“民主”都有自己的载体,用于比较。 但是,似乎word2vec需要远远超过几本书(每个重新标记的单词仅在一部分书中出现)来训练可靠的向量。在官方网页推荐数据集,包括数十亿字。 我只是想问一问word2vec,如果有的话,一个作者的书集的子集应该有多大?

2
word2vec中单词向量的特征
我正在尝试进行情绪分析。为了将单词转换为单词向量,我使用了word2vec模型。假设我的所有句子都在名为“句子”的列表中,并且将这些句子传递给word2vec,如下所示: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 由于我对词向量不敏感,因此我有两个疑问。 1-将特征数量设置为300定义了单词向量的特征。但是这些功能意味着什么?如果此模型中的每个单词都由1x300 numpy数组表示,那么这300个功能对该单词表示什么? 2-在上述模型中,以“样本”参数表示的向下采样实际上有什么作用? 提前致谢。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.