Questions tagged «cart»

“分类树和回归树”。CART是一种流行的机器学习技术,它构成了诸如随机森林和梯度增强机器的常见实现之类的技术的基础。

9
从随机森林中获取知识
随机森林被认为是黑匣子,但是最近我在想可以从随机森林中获得什么知识? 最明显的是变量的重要性,在最简单的变体中,只需计算变量的出现次数即可完成。 我正在考虑的第二件事是交互。我认为,如果树的数量足够大,则可以测试变量对的出现次数(类似于卡方独立性)。第三件事是变量的非线性。我的第一个想法只是看可变Vs得分的图表,但我不确定这是否有意义。 添加23.01.2012 动机 我想利用这些知识来改进logit模型。我认为(或至少希望如此)可以找到被忽略的相互作用和非线性。

2
梯度助推树与随机森林
弗里德曼(Friedman)提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂(完全成长)或更简单?选择有什么解释吗? 随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解,我们通常在每次迭代中使用几乎完全增长的决策树。我对吗?

1
条件推理树与传统决策树
谁能解释条件推理树(ctree来自partyR中的程序包)与更传统的决策树算法(诸如rpartR中)的主要区别? 是什么使CI树与众不同? 长处和短处? 更新:我看了Chi在评论中提到的Horthorn等人的论文。我无法完全遵循它-谁能解释一下如何使用排列选择变量(例如什么是影响函数)? 谢谢!

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
调整随机森林的实用问题
我的问题是关于随机森林。这个美丽的分类器的概念对我来说很清楚,但是仍然存在许多实际使用问题。不幸的是,我没有找到任何有关RF的实用指南(我一直在寻找类似Geoffrey Hinton撰写的“训练受限的Boltzman机器的实用指南”之类的内容,但搜索的是Random Forests! 在实践中如何调整RF? 树木数量越大总会更好吗?是否有合理的限制(当然,除了压缩容量以外),树木数量的增加以及如何针对给定的数据集进行估算? 树木的深度怎么样?如何选择合理的一个?在一个森林中试验不同长度的树木有感觉吗?对此有什么指导? 训练射频时还有其他参数值得一看吗?用于建造单个树木的算法可能是? 当他们说RF能够抵抗过度拟合时,这是真的吗? 我将不胜感激,在搜索过程中可能错过的任何答案和/或指向指南或文章的链接。

3
如何实际从randomForest :: getTree()绘制示例树?[关闭]
任何人都有关于如何从以下位置实际绘制几个示例树的库或代码建议: getTree(rfobj, k, labelVar=TRUE) (是的,我知道您不应该在操作上进行此操作,RF是一个黑匣子,依此类推。我想在视觉上检查树,以查看是否有任何违反直觉的变量,需要进行调整/组合/离散化/转换,检查我的编码因子的效果如何,等等) 先前的问题,没有合适的答案: 如何使随机森林更具解释性? 同时从随机森林中获取知识 我实际上想绘制一个样本树。所以,现在就不要与我争论。我不是在问varImpPlot(变量重要性图)或partialPlot或MDSPlot,或这些其他图,我已经知道了,但是它们不能代替查看示例树。是的,我可以目视检查的输出getTree(...,labelVar=TRUE)。 (我想plot.rf.tree()贡献将是非常受欢迎的。)

3
什么是偏差?(特别是在CART / rpart中)
什么是“偏差”,它是如何计算的,在统计的不同字段中有什么用? 特别是,我个人对它在CART中的使用(及其在R中的rpart中的实现)感兴趣。 我之所以这么问,是因为维基文章似乎有所欠缺,您的见解将受到极大欢迎。
45 r  cart  rpart  deviance 

4
针对不平衡数据训练决策树
我是数据挖掘的新手,我正在尝试针对高度不平衡的数据集训练决策树。但是,我遇到了预测准确性较差的问题。 数据由学习课程的学生组成,班级变量是课程状态,具有两个值-撤回或当前。 年龄 种族 性别 课程 ... 课程状态 在数据集中,当前的实例多于撤回的实例。撤消的实例仅占实例总数的2%。 我希望能够建立一个模型,该模型可以预测一个人将来会退出的可能性。但是,当针对训练数据测试模型时,模型的准确性非常糟糕。 我在决策树中也遇到过类似的问题,决策树中的数据由一两个类控制。 我可以使用哪种方法来解决此问题并建立更准确的分类器?

6
为什么我会得到100%准确性的决策树?
我的决策树准确性达到100%。我究竟做错了什么? 这是我的代码: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import DecisionTreeClassifier tree = …

3
为什么决策树在计算上不昂贵?
在《 R语言中的统计学习及其应用入门》中,作者写道,拟合决策树非常快,但这对我来说没有意义。该算法必须遍历每个特征,并以各种可能的方式对其进行划分,以找到最佳分割。对于具有观测值的数字特征,这可能会导致每个特征有n个分区。nnnnnn 我是否误解了二进制拆分的工作原理?还是有一种理由认为该算法不会花费很长时间?
38 cart 


1
相对变量重要性的提升
我正在寻找一种解释,说明如何在梯度增强树中计算相对变量重要性,而这并不是过于笼统/过于简单: 度量基于选择变量进行拆分的次数,每次拆分后对模型的平方改进加权的权重并在所有树上取平均值。[ Elith等。2008年,增强回归树的工作指南 ] 那还不如: 一世2Ĵ^(T)= ∑t = 1Ĵ− 1一世2Ť^1 (vŤ= j )一世Ĵ2^(Ť)=∑Ť=1个Ĵ-1个一世Ť2^1个(vŤ=Ĵ)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 其中求和在终端节点树的非终端节点上,是与节点相关的拆分变量,是平方误差的相应经验改进作为分割的结果,定义为,其中分别是左子代反应手段和右子代反应手段,而是权重的相应总和。J T v t t ^ i 2 t i 2(R l,R r)= w l w rŤŤtĴĴJŤŤTvŤvŤv_{t}ŤŤt一世2Ť^一世Ť2^\hat{i_{t}^2}一世2(R升,R[R)= w升w[Rw升+ w[R(y升¯- ÿ[R¯)2一世2([R升,[R[R)=w升w[Rw升+w[R(ÿ升¯-ÿ[R¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2ÿ升¯,ÿ[R¯ÿ升¯,ÿ[R¯\bar{y_{l}}, \bar{y_{r}}w升,w[Rw升,w[Rw_{l}, w_{r}[ Friedman 2001,贪婪函数近似:梯度提升机 ] 最后,我没有发现统计学学习的内容(Hastie等人,2008年)对这里的学习非常有帮助,因为相关部分(第10.13.1页,第367页)的味道与上述第二篇参考文献非常相似(可以对此进行解释)因为弗里德曼是这本书的合著者)。 PS:我知道gbm R包中的summary.gbm给出了相对变量重要性度量。我试图探索源代码,但似乎找不到实际的计算位置。 布朗尼要点:我想知道如何在R中获得这些图。

3
随机森林如何对异常值不敏感?
我已经读过一些资料,包括本资料,其中“ 随机森林”对离群值不敏感(例如Logistic回归和其他ML方法都是如此)。 但是,有两种直觉告诉我: 每当构建决策树时,都必须对所有点进行分类。这意味着,甚至离群值也将被分类,因此会影响在增强期间选择它们的决策树。 自举是RandomForest进行子采样的一部分。自举容易受到异常值的影响。 有什么办法可以使我对直觉对异常值敏感的直觉与不同意的消息来源相吻合?

1
GBM参数有哪些有用的准则?
使用GBM来测试参数(例如,交互深度,最小子集,采样率等)的一些有用准则是什么? 假设我有70-100个要素,一个200,000人口,并且我打算测试3和4的交互深度。显然,我需要进行一些测试,以查看哪些参数组合可以保持最佳的样本外。关于如何进行此测试设计的任何建议?

4
使用CART时如何衡量/排列“可变重要性”?(特别是使用R中的{rpart})
当使用rpart(在R中)构建CART模型(特别是分类树)时,通常很有趣的一点是,了解引入模型的各种变量的重要性。 因此,我的问题是: 对于CART模型中的参与变量的排名/衡量变量重要性,存在哪些常用措施?以及如何使用R来计算(例如,使用rpart包时) 例如,下面是一些伪代码,它们是创建的,以便您可以在上面显示解决方案。此示例经过结构设计,很明显变量x1和x2是“重要的”,而(在某种意义上)x1比x2更重要(因为x1应该适用于更多情况,因此对数据结构的影响更大,然后x2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.