数据科学 unsupervised-learning

1

为什么xgboost比sklearn GradientBoostingClassifier快得多？

我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树，而GradientBoostingClassifier只处理10棵（！）以1分2秒:(我没有理会试图种植500棵树，因为它会需要几个小时。我使用的是相同的learning_rate，并max_depth设置，见下文。是什么使XGBoost如此之快？它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式？还是“偷工减料”并种植浅树？ ps我知道这个讨论：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey，但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

1

Word2Vec与Sentence2Vec与Doc2Vec

最近，我遇到了Word2Vec，Sentence2Vec和Doc2Vec这两个术语，由于对向量语义不熟悉，因此感到有些困惑。有人可以用简单的文字详细说明这些方法的区别。每种方法最适合的任务是什么？

18 machine-learning data-mining clustering nlp unsupervised-learning

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

哪些学习问题适合于支持向量机？

表明支持向量机可以解决某些学习问题的标志或特性是什么？换句话说，当您看到一个学习问题时，是什么让您“噢，我绝对应该为此使用SVM”而不是神经网络或决策树或其他任何东西？

16 machine-learning svm supervised-learning unsupervised-learning

3

受限玻尔兹曼机（RBM）背后的直觉

我在Coursera上完成了Geoff Hinton的神经网络课程，并通过介绍受限的Botzmann机器进行了学习，但我仍然不理解RBM背后的直觉。为什么我们需要在这台机器上计算能量？在这台机器中，概率有什么用？我也看了这段视频。在视频中，他只是在计算步骤之前就写了概率和能量方程，而且似乎没有在任何地方使用它。除此之外，我不确定似然函数的作用是什么？

15 unsupervised-learning rbm

4

如何使用word2vec识别看不见的单词并将其与已训练的数据关联

我正在研究word2vec gensim模型，发现它真的很有趣。我对找到一个未知/看不见的单词进行模型检查很感兴趣，它将如何从训练后的模型中获得相似的术语。这可能吗？可以对word2vec进行调整吗？或者，训练语料库需要具有我想找到相似之处的所有单词。

11 nlp deep-learning word-embeddings unsupervised-learning

3

如何使用GAN从图像中进行无监督特征提取？

我了解GAN在两个网络（生成性和区分性）相互竞争时如何工作。我建立了一个DCGAN（带有卷积鉴别器和反卷积生成器的GAN），现在可以成功生成类似于MNIST数据集中的手写数字。我已经阅读了很多有关GAN从图像中提取特征的应用程序。如何使用训练有素的GAN模型（在MNIST数据集上）从MNIST手写的挖掘者图像中提取特征？

10 feature-extraction unsupervised-learning gan

2

将CNN训练为自动编码器有意义吗？

我正在分析脑电数据，最终将需要对其进行分类。但是，获取唱片的标签有些昂贵，这使我考虑采用无监督方法，以更好地利用我们大量的无标签数据。这自然会导致考虑堆叠自动编码器，这可能是一个好主意。但是，使用卷积神经网络也是有意义的，因为某种形式的过滤通常是对EEG的非常有用的方法，并且所考虑的时期可能应该在本地而非整体上进行分析。是否有结合两种方法的好方法？似乎当人们使用CNN时，他们通常会使用监督培训，或者什么？探索神经网络来解决我的问题的两个主要好处似乎是无人监管，以及微调（例如，在人口数据上创建一个网络，然后针对个人进行微调很有趣）。那么，有谁知道我是否可以像训练“残破的”自动编码器那样预训练CNN，还是毫无意义？我是否应该考虑其他某种架构，例如深度信任网络？

9 deep-learning convnet unsupervised-learning autoencoder

Questions tagged «unsupervised-learning»