Questions tagged «random-forest»

随机森林是一种机器学习分类器,其基础是为每棵树选择变量的随机子集,并使用最频繁的树输出作为整体分类。

1
通过添加更多的单个决策树来进行在线随机森林
随机森林(RF)由决策树(DT)的集合创建。通过使用装袋,可以在不同的数据子集中训练每个DT。因此,有没有办法通过在新数据上添加更多决策树来实现在线随机森林? 例如,我们有10K样本并训练了10个DT。然后,我们得到了1K个样本,而不是再次训练整个RF,而是添加了一个新的DT。现在通过10 + 1 DT的贝叶斯平均值进行预测。 另外,如果我们保留所有先前的数据,则可以主要在新数据中训练新的数据仓库,其中根据已经选择了多少次来加权选择样本的概率。

1
具有高基数分类特征的特征重要性用于回归(数字依赖变量)
我试图使用随机森林中的特征重要性来对回归问题执行一些经验性特征选择,该回归问题中所有特征都是分类的,并且其中许多特征具有许多级别(大约100-1000)。假设一键编码会为每个级别创建一个虚拟变量,那么功能的重要性是针对每个级别的,而不是针对每个功能(列)。汇总这些功能重要性的好方法是什么? 我考虑过对某个功能的所有级别进行求和或得出平均重要性(可能前者会偏向具有更高级别的那些功能)。关于这个问题有参考吗? 还有什么可以减少功能数量的呢?我知道套索组,找不到任何易于使用的scikit-learn。

1
使用scikit-learn在随机森林中使用特征重要性进行特征选择
我已经使用scikit-learn绘制了随机森林中的特征重要性。为了改善使用随机森林的预测,如何使用图信息删除特征?即,如何根据绘图信息发现某个特征是无用的还是随机森林性能的下降甚至更差?该图基于属性feature_importances_,我使用分类器sklearn.ensemble.RandomForestClassifier。 我知道还有其他用于特征选择的技术,但是在这个问题中,我想重点介绍如何使用特征feature_importances_。 此类功能重要性图的示例:

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
如何为随机森林分类拟合分类数据类型?
我需要通过应用随机森林算法来找到训练数据集的准确性。但是我的数据集类型既是分类的又是数字的。当我尝试拟合这些数据时,出现错误。 '输入包含NaN,无穷大或dtype('float32')太大的值。 问题可能出在对象数据类型上。如何在不进行RF转换的情况下拟合分类数据? 这是我的代码。

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
样本外数据过拟合是否具有100%的模型准确性?
我刚刚在认知类.ai上完成了R课程的机器学习,并开始尝试使用随机森林。 我已经通过使用R中的“ randomForest”库制作了一个模型。该模型分为好和坏两个类。 我知道,当模型过拟合时,其自身训练集中的数据表现良好,而样本外数据则表现不佳。 为了训练和测试我的模型,我将完整的数据集混洗并将其分成70%用于训练和30%用于测试。 我的问题是:我对测试集所做的预测获得了100%的准确性。这不好吗?看起来真是太好了。 目的是根据波形相互识别四个波形。数据集的特征是对具有目标波形的波形进行动态时间规整分析的成本结果。

2
给定我有一个在P(Y | X)上训练时具有良好性能的模型,找到最佳P(X | Y)
输入数据: > T恤的功能(颜色,徽标等)XXX >利润率YYY 我已经在上面的和Y上训练了一个随机森林,并在测试数据上达到了合理的准确性。所以我有XXXYYY 。P(Y|X)P(Y|X)P(Y|X) 现在,我想找到即给定我期望这么高的利润率的X特征的概率分布。P(X|Y)P(X|Y)P(X|Y)XXX 如何使用随机森林(或任何其他判别模型)来做到这一点? 对我来说,一个建议可能是从生成模型而不是判别模型开始。但是,我的理解是,生成模型通常需要训练大量数据,除非做出一些非常严格的假设,例如在朴素贝叶斯的情况下的条件独立性?XXX 其他建议可能只是切换和Y并训练判别模型。现在X将是利润率,Y将是at衬衫的特征。给定目标利润率,P (Y | X )将直接给我t恤功能的概率分布。但是这种方法对我来说似乎并不正确,因为我一直将X作为偶然变量,而将Y视为有效。XXXYYYXXXYYYP(Y|X)P(Y|X)P(Y|X)XXXYYY 而且,据我所知,对于药物发现也提出了类似的问题,并设计了算法,这些算法提出了具有高度成功性的候选新药物。有人可以指点我研究这一领域的文学吗? 更新: 我也碰到过这个和这个,其被用于药物发现约甘斯举行会谈。生成式对抗网络似乎很适合我的问题陈述,因此我一直在阅读有关它们的信息。但是我了解的一件事是GAN以无监督的方式生成样本。他们试图生成样本,就像首先捕获X的基础分布,然后从该分布进行采样一样。但是我对X | Y感兴趣。X和Y在上面定义。除了GAN,我是否应该探索其他东西?有指针吗? 后续问题: 想象一下,我受过GAN培训,学习了如何制作T恤(输出样本Xs)。在给定的Y下,如何获得前5件衬衫?

3
班级不平衡-如何最大程度地减少误报?
我有一个具有二进制类属性的数据集。有623个类别为+1的实例(癌症阳性)和101,671个实例为-1的实例(癌症阴性)。 我尝试了各种算法(朴素贝叶斯,随机森林,AODE,C4.5),并且所有算法都有不可接受的假负比率。随机森林具有最高的总体预测准确度(99.5%)和最低的假阴性率,但仍错过了79%的阳性分类(即未能检测到79%的恶性肿瘤)。 有什么想法可以改善这种情况吗? 谢谢!


3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
通过随机森林和线性回归得出的特征重要性不同
应用套索对特征进行排名并得到以下结果: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 请注意,数据集具有3个标签。不同标签的功能等级相同。 然后将随机森林应用于相同的数据集: rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 8 c 0.041690685195283385 请注意,排名与套索产生的排名有很大不同。 如何解释差异?是否暗示基础模型固有地是非线性的?

3
从Scikit-Learn中的Random Forest Regressor导出权重(公式)
我使用Scikit Learn in Python(Random Forest Regressor)训练了一个预测模型,我想以某种方式提取每个功能的权重,以创建一个用于手动预测的excel工具。 我发现的唯一东西是,model.feature_importances_但无济于事。 有什么办法可以实现? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - …

3
Amazon ec2上的R随机林错误:无法分配大小为5.4 Gb的向量
我正在R中训练随机森林模型,并randomForest()使用1000个树和数据帧以及大约20个预测变量和600K行。在我的笔记本电脑上,一切正常,但是当我转到Amazon ec2时,要运行相同的内容,则会收到错误消息: Error: cannot allocate vector of size 5.4 Gb Execution halted 我正在使用c3.4xlarge实例类型,因此非常强大。有谁知道为此解决方案以使其在此实例上运行?我很想知道仅在ec2实例上而不在笔记本电脑上导致此问题的内存细微差别(OS X 10.9.5处理器2.7 GHz Intel Core i7;内存16 GB 1600 MHz DDR3) 谢谢。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.