数据科学 word-embeddings

4

我从以下两个来源了解到NCE（一种候选抽样形式）： Tensorflow写原始纸有人可以为我提供以下帮助： NCE的工作原理的简单说明（我发现上面的内容很难解析和理解，因此直观的方法可以很好地介绍此处的数学知识）在上面的第1点之后，自然而然地描述了它与负采样有何不同。我可以看到公式略有变化，但无法理解数学。在以下情况下，我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本，V并仅对那些样本进行更新，因为它们|V|很大，因此可以加快速度。如果有误，请更正。何时使用哪一个，如何决定？如果您可以包括示例（可能易于理解的应用程序），那就太好了。 NCE比负采样好吗？哪种方式更好？谢谢。

32 deep-learning tensorflow word-embeddings sampling loss-function

3

对Word2Vec更好的输入是什么？

这更像是一般的NLP问题。训练单词嵌入即Word2Vec的适当输入是什么？属于文章的所有句子是否应该是语料库中的单独文档？还是每个文章都应该是所述语料库中的文档？这只是使用python和gensim的示例。语料库按句子拆分： SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] 语料库按文章划分： ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …

22 nlp word-embeddings

2

使用Word2vec模型预测单词

给出一个句子：“当我打开??门时，它会自动开始加热” 我想获得??中可能的单词的列表很有可能。 word2vec模型中使用的基本概念是根据周围环境“预测”单词。一旦建立模型，什么是正确的上下文向量运算以对新句子执行我的预测任务？它仅仅是线性和吗？ model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

20 nlp predictive-modeling word-embeddings

4

如何衡量单词的语义相似性？

找出单词语义相似性的最佳方法是什么？Word2Vec可以，但不理想： # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTK的Wordnet方法似乎只是放弃： In [25]: …

20 nlp word-embeddings word2vec nltk

2

Doc2Vec-如何标记段落（gensim）

我想知道如何从gensim中使用doc2vec在gensim中标记（标记）句子/段落/文档。您是否需要使每个句子/段落/文档带有自己的唯一标签（例如“ Sent_123”）？如果您想说“哪些单词或句子与标记为“ Sent_123”的单个特定句子最相似”，这似乎很有用。能否根据内容重复标签？例如，如果每个句子/段落/文档都与某个特定产品有关（并且给定产品项目有多个句子/段落/文档），则可以根据该项目为句子加上标签，然后计算单词或词组之间的相似度句子和这个标签（我想这将是与产品有关的所有句子的平均值）？

17 machine-learning text-mining word-embeddings word2vec

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

如何使用预先训练的模型权重初始化新的word2vec模型？

我在python中使用Gensim库来使用和训练word2vector模型。最近，我正在考虑使用一些预先训练的word2vec模型（例如GoogleNewDataset预训练模型）来初始化模型权重。我一直在努力奋斗了几周。现在，我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述： reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙！！！

14 python nlp word-embeddings word2vec gensim

3

是否有适用于python的好的即用型语言模型？

我正在为一个应用程序制作原型，我需要一个语言模型来计算一些生成的句子的困惑度。我可以随时使用经过训练的python语言模型吗？简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架，但找不到我想要的。我知道我可以使用类似： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布，但是我正在一些大型数据集（例如1b单词数据集）上寻找精心设计的模型。我可以真正相信一般领域的结果（不仅是新闻）

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

如何使用word2vec识别看不见的单词并将其与已训练的数据关联

我正在研究word2vec gensim模型，发现它真的很有趣。我对找到一个未知/看不见的单词进行模型检查很感兴趣，它将如何从训练后的模型中获得相似的术语。这可能吗？可以对word2vec进行调整吗？或者，训练语料库需要具有我想找到相似之处的所有单词。

11 nlp deep-learning word-embeddings unsupervised-learning

3

Word2Vec和Doc2Vec是分布式表示还是分布式表示？

我已经读过分布表示法是基于分布假设的，即在相似上下文中出现的单词往往具有相似的含义。 Word2Vec和Doc2Vec都根据此假设建模。但是，在原始论文中，即使它们的标题也为Distributed representation of words and phrases和Distributed representation of sentences and documents。因此，这些算法是基于分布表示还是分布式表示。其他模型（例如LDA和LSA）如何？

10 nlp word-embeddings terminology word2vec

1

文本分类问题：Word2Vec / NN是最好的方法吗？

我正在设计一个系统，使给定的一段文本能够对其进行分类并确定上下文：经过用户生成的文本段落（如评论/问题/答案）的培训训练集中的每个项目都将标有。因此，例如（“类别1”，“文本段落”）将有数百个类别建立这样一个系统的最佳方法是什么？我一直在研究几个不同的选项，以下是可能的解决方案的列表。Word2Vec / NN目前是最佳解决方案吗？递归神经张量网络馈送了平均Word2Vec数据 RNTN和段落向量（https://cs.stanford.edu/~quocle/paragraph_vector.pdf）？深度信仰网络中使用的TF-IDF TF-IDF和Logistic回归单词袋和朴素贝叶斯分类

10 neural-network text-mining multiclass-classification word-embeddings

1

word2vec需要多少训练数据？

我想比较不同来源提到的同一单词之间的差异。也就是说，作者在使用诸如“民主”之类的定义不清的单词时有何不同。一个简短的计划是以提及“民主”一词的书籍为纯文本在每本书中，替换democracy为democracy_%AuthorName% word2vec在这些书上训练模型计算之间的距离democracy_AuthorA，democracy_AuthorB和“民主”的其他提及重新标记因此，每个作者的“民主”都有自己的载体，用于比较。但是，似乎word2vec需要远远超过几本书（每个重新标记的单词仅在一部分书中出现）来训练可靠的向量。在官方网页推荐数据集，包括数十亿字。我只是想问一问word2vec，如果有的话，一个作者的书集的子集应该有多大？

10 text-mining word-embeddings

2

word2vec中单词向量的特征

我正在尝试进行情绪分析。为了将单词转换为单词向量，我使用了word2vec模型。假设我的所有句子都在名为“句子”的列表中，并且将这些句子传递给word2vec，如下所示： model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 由于我对词向量不敏感，因此我有两个疑问。 1-将特征数量设置为300定义了单词向量的特征。但是这些功能意味着什么？如果此模型中的每个单词都由1x300 numpy数组表示，那么这300个功能对该单词表示什么？ 2-在上述模型中，以“样本”参数表示的向下采样实际上有什么作用？提前致谢。

9 machine-learning deep-learning word-embeddings word2vec sentiment-analysis

Questions tagged «word-embeddings»