Questions tagged «gensim»

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
如何使用Gensim加载FastText预训练模型?
我试图从这里的Fasttext模型加载fastText预训练模型。我正在使用wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 但是,它显示以下错误 Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …
21 nlp  gensim 

3
Doc2vec(gensim)-如何推断看不见的句子的标签?
https://radimrehurek.com/gensim/models/doc2vec.html 例如,如果我们使用以下方法训练了doc2vec “ aaaaaAAAAAaaaaaaaa”-“标签1” “ bbbbbbBBBBBbbbb”-“标签2” 我们可以使用Doc2vec推断标签为1的“ aaaaAAAAaaaaAAAA”吗? 我知道Doc2vec可以训练单词向量和标签向量。使用这个向量,我们可以推断出哪个标签中看不见的句子(经过训练的单词的组合)吗?
14 gensim 

4
如何使用预先训练的模型权重初始化新的word2vec模型?
我在python中使用Gensim库来使用和训练word2vector模型。最近,我正在考虑使用一些预先训练的word2vec模型(例如GoogleNewDataset预训练模型)来初始化模型权重。我一直在努力奋斗了几周。现在,我刚刚搜索出在gesim中有一个函数可以帮助我使用预先训练的模型权重来初始化模型的权重。如下所述: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. 我不知道此功能可以做同样的事情。请帮忙!!!

4
Gensim Word2Vec实现中的时期数
Word2Vec实现中有一个iter参数gensim gensim.models.word2vec.Word2Vec类(句子=无,大小= 100,alpha = 0.025,窗口= 5,min_count = 5,max_vocab_size =无,sample = 0,seed = 1,workers = 1,min_alpha = 0.0001,sg = 1,hs = 1,否定= 0,cbow_mean = 0,hashfxn =,iter = 1,null_word = 0,trim_rule = None,sorted_vocab = 1) 指定时期数,即: iter =语料库上的迭代次数(时期)。 有谁知道这是否有助于改进语料库模型? 有什么理由将iter默认设置为1?增加No不会有太大影响。时代? 是否有关于如何设置否的科学/经验评估。时代? 与分类/回归任务不同,网格搜索方法不会真正起作用,因为矢量是以无监督方式生成的,而目标函数只是通过分层softmax或负采样进行。 是否有一个早期停止机制来缩短否。向量收敛后的历元数?分层softmax或负采样目标可以收敛吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.