Questions tagged «unsupervised-learning»

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


3
受限玻尔兹曼机(RBM)背后的直觉
我在Coursera上完成了Geoff Hinton的神经网络课程,并通过介绍受限的Botzmann机器进行了学习,但我仍然不理解RBM背后的直觉。 为什么我们需要在这台机器上计算能量?在这台机器中,概率有什么用?我也看了这段视频。在视频中,他只是在计算步骤之前就写了概率和能量方程,而且似乎没有在任何地方使用它。 除此之外,我不确定似然函数的作用是什么?


3
如何使用GAN从图像中进行无监督特征提取?
我了解GAN在两个网络(生成性和区分性)相互竞争时如何工作。我建立了一个DCGAN(带有卷积鉴别器和反卷积生成器的GAN),现在可以成功生成类似于MNIST数据集中的手写数字。 我已经阅读了很多有关GAN从图像中提取特征的应用程序。如何使用训练有素的GAN模型(在MNIST数据集上)从MNIST手写的挖掘者图像中提取特征?

2
将CNN训练为自动编码器有意义吗?
我正在分析脑电数据,最终将需要对其进行分类。但是,获取唱片的标签有些昂贵,这使我考虑采用无监督方法,以更好地利用我们大量的无标签数据。 这自然会导致考虑堆叠自动编码器,这可能是一个好主意。但是,使用卷积神经网络也是有意义的,因为某种形式的过滤通常是对EEG的非常有用的方法,并且所考虑的时期可能应该在本地而非整体上进行分析。 是否有结合两种方法的好方法?似乎当人们使用CNN时,他们通常会使用监督培训,或者什么?探索神经网络来解决我的问题的两个主要好处似乎是无人监管,以及微调(例如,在人口数据上创建一个网络,然后针对个人进行微调很有趣)。 那么,有谁知道我是否可以像训练“残破的”自动编码器那样预训练CNN,还是毫无意义? 我是否应该考虑其他某种架构,例如深度信任网络?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.