Questions tagged «supervised-learning»

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
在机器学习中合并稀疏和密集的数据以提高性能
我有可预测的稀疏特征,也有一些也可预测的密集特征。我需要将这些功能结合在一起,以提高分类器的整体性能。 现在,当我尝试将它们组合在一起时,稠密特征往往比稀疏特征更占主导地位,因此与仅具有稠密特征的模型相比,AUC仅改善了1%。 有人遇到过类似的问题吗?非常感谢您的投入,有点卡住。我已经尝试了许多不同的分类器,分类器的组合,特征转换以及使用不同算法的处理。 先谢谢您的帮助。 编辑: 我已经尝试了评论中给出的建议。我观察到的是,对于几乎45%的数据,稀疏特征的性能确实很好,只有稀疏特征的AUC约为0.9,而对于其余稠密特征,AUC约为0.75的性能很好。我尝试将这些数据集分离出来,但得到的AUC为0.6,因此,我不能简单地训练模型并确定要使用的功能。 关于代码段,我已经尝试了很多东西,以至于我不确定要分享什么:(


1
简易自驾遥控车的监督学习与强化学习
我正在建造一辆遥控自驾车,很有趣。我正在使用Raspberry Pi作为车载计算机。我正在使用各种插件,例如Raspberry Pi摄像头和距离传感器,以获取有关汽车周围环境的反馈。我正在使用OpenCV将视频帧转换为张量,并且正在使用Google的TensorFlow构建一个复杂的神经网络来学习道路边界和障碍物。我的主要问题是,我应该使用监督学习来教汽车驾驶,还是应该提供目标和罚则并进行强化学习(即,尽可能快地到达B点,而不撞到任何东西并停留在道路边界内)?以下是我提出的利弊清单。 监督学习专家: 学习算法的输入非常简单。汽车学会将视频帧张量和传感器距离读数与前,后和角轮位移相关联 我可以或多或少地教导汽车完全按照我的意愿驾驶(当然,不要过度安装) 之前,我已经做过很多有监督的学习问题,而且这种方法似乎很适合我现有的技能 监督学习的弊端: 目前尚不清楚如何教授速度,并且正确的速度是任意的,只要汽车的行驶速度不会太快而偏离道路。我想我可以在训练中快速开车,但这似乎是一种粗略的方法。也许我可以在训练期间手动添加一个常量变量,该变量对应于该训练课程的速度,然后在部署学习算法时,我根据所需的速度设置此变量? 强化学习的优点: 如果我以赛车别人的自动驾驶汽车为特定目的来制造汽车,那么强化学习似乎是告诉我的汽车“尽可能快地到达那里”的自然方法。 我已经读到RL有时会用于无人驾驶无人机,因此从理论上讲,它应该在汽车中更容易使用,因为我不必担心上下 强化学习的弊端: 我觉得强化学习将需要很多额外的传感器,坦率地说,我的脚踏车内部没有那么多空间,因为它也需要安装电池,Raspberry Pi和面包板 最初,汽车的行为会非常不稳定,以至于它可能会自行毁坏。学习也可能花费不合理的长时间(例如,数月或数年) 以后我不能加入明确的规则,例如,停在玩具红灯前。通过监督学习,我可以将许多SL算法(例如,用于识别交通信号灯的Haar Cascade分类器)合并到可配置的规则引擎中,以在每个视频帧之间进行评估。因此,即使交通信号灯可能不是驾驶算法训练的一部分,如果规则引擎看到了红色的交通灯,它也将能够超越驾驶SL算法。RL似乎太连续了,无法执行此操作(即仅在终端状态下停止) 我没有应用强化学习的丰富经验,尽管我绝对想学习
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.