Questions tagged «word2vec»

word2vec是用于处理文本的两层神经网络。它以单词作为输入并相应地输出向量。它结合了Word的连续包和Skipgram模型的实现。

4
如何衡量单词的语义相似性?
找出单词语义相似性的最佳方法是什么?Word2Vec可以,但不理想: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTK的Wordnet方法似乎只是放弃: In [25]: …

5
句子相似度的最佳实用算法
我有两个句子S1和S2,它们的字数通常都在15以下。 什么是最实用,最成功的(机器学习)算法,这些算法可能易于实现(神经网络可以,除非架构像Google Inception等那样复杂)。 我正在寻找一种不会花太多时间就能正常工作的算法。您是否发现任何成功且易于使用的算法? 这可以但不必属于群集类别。我的背景是机器学习的知识,所以欢迎提出任何建议:)

2
Doc2Vec-如何标记段落(gensim)
我想知道如何从gensim中使用doc2vec在gensim中标记(标记)句子/段落/文档。 您是否需要使每个句子/段落/文档带有自己的唯一标签(例如“ Sent_123”)?如果您想说“哪些单词或句子与标记为“ Sent_123”的单个特定句子最相似”,这似乎很有用。 能否根据内容重复标签?例如,如果每个句子/段落/文档都与某个特定产品有关(并且给定产品项目有多个句子/段落/文档),则可以根据该项目为句子加上标签,然后计算单词或词组之间的相似度句子和这个标签(我想这将是与产品有关的所有句子的平均值)?

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
如何使用预先训练的模型权重初始化新的word2vec模型?
我在python中使用Gensim库来使用和训练word2vector模型。最近,我正在考虑使用一些预先训练的word2vec模型(例如GoogleNewDataset预训练模型)来初始化模型权重。我一直在努力奋斗了几周。现在,我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙!!!

4
Gensim Word2Vec实现中的时期数
Word2Vec实现中有一个iter参数gensim gensim.models.word2vec.Word2Vec类(句子=无,大小= 100,alpha = 0.025,窗口= 5,min_count = 5,max_vocab_size =无,sample = 0,seed = 1,workers = 1,min_alpha = 0.0001,sg = 1,hs = 1,否定= 0,cbow_mean = 0,hashfxn =,iter = 1,null_word = 0,trim_rule = None,sorted_vocab = 1) 指定时期数,即: iter =语料库上的迭代次数(时期)。 有谁知道这是否有助于改进语料库模型? 有什么理由将iter默认设置为1?增加No不会有太大影响。时代? 是否有关于如何设置否的科学/经验评估。时代? 与分类/回归任务不同,网格搜索方法不会真正起作用,因为矢量是以无监督方式生成的,而目标函数只是通过分层softmax或负采样进行。 是否有一个早期停止机制来缩短否。向量收敛后的历元数?分层softmax或负采样目标可以收敛吗?

4
我们可以在训练word2vec模型时利用迁​​移学习的优势吗?
我正在寻找已经训练有素的模型(如Google新闻数据等)的预训练权重。我发现很难为自己训练出具有足够数量(10 GB等)数据的新模型。因此,我想从转移学习中受益,在转移学习中,我将能够获得预训练的层权重并在我的领域特定单词上对那些权重进行重新训练。因此,肯定会减少培训时间。任何帮助将不胜感激。提前致谢 :)

2
使用卷积神经网络进行文档分类
我正在尝试使用CNN(卷积神经网络)对文档进行分类。短文本/句子的CNN已在许多论文中进行了研究。但是,似乎没有论文将CNN用于长文本或文档。 我的问题是文档中的功能太多。在我的数据集中,每个文档都有1000多个标记/单词。为了将每个示例提供给CNN,我使用word2vec或手套将每个文档转换成矩阵,从而得到一个大矩阵。对于每个矩阵,高度是文档的长度,宽度是单词嵌入矢量的大小。我的数据集有9000多个示例,并且训练网络需要花费大量时间(整整一周),这使得难以微调参数。 另一种特征提取方法是对每个单词使用一个热向量,但这会创建非常稀疏的矩阵。当然,这种方法比以前的方法花费更多的时间进行训练。 那么,有没有一种在不创建大型输入矩阵的情况下提取特征的更好方法? 以及如何处理可变长度的文件?当前,我添加了特殊字符串以使文档具有相同的长度,但是我认为这不是一个很好的解决方案。

3
Word2Vec和Doc2Vec是分布式表示还是分布式表示?
我已经读过分布表示法是基于分布假设的,即在相似上下文中出现的单词往往具有相似的含义。 Word2Vec和Doc2Vec都根据此假设建模。但是,在原始论文中,即使它们的标题也为Distributed representation of words and phrases和Distributed representation of sentences and documents。因此,这些算法是基于分布表示还是分布式表示。 其他模型(例如LDA和LSA)如何?

2
word2vec中的特征矩阵是什么?
我是神经网络的初学者,目前正在探索word2vec模型。但是,我很难理解特征矩阵的确切含义。 我可以理解,第一个矩阵是给定单词的单编码编码矢量,但是第二个矩阵表示什么呢?更具体地说,这些值(即17、24、1等)分别是什么意思?

2
word2vec中单词向量的特征
我正在尝试进行情绪分析。为了将单词转换为单词向量,我使用了word2vec模型。假设我的所有句子都在名为“句子”的列表中,并且将这些句子传递给word2vec,如下所示: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 由于我对词向量不敏感,因此我有两个疑问。 1-将特征数量设置为300定义了单词向量的特征。但是这些功能意味着什么?如果此模型中的每个单词都由1x300 numpy数组表示,那么这300个功能对该单词表示什么? 2-在上述模型中,以“样本”参数表示的向下采样实际上有什么作用? 提前致谢。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.