Questions tagged «cart»

“分类树和回归树”。CART是一种流行的机器学习技术,它构成了诸如随机森林和梯度增强机器的常见实现之类的技术的基础。

2
为决策树分类功能编码的最佳做法?
在为线性回归编码分类特征时,有一条规则:假人的数量应比级别总数少一个(以避免共线性)。 决策树是否存在类似的规则(袋装,增强)?我之所以这样问是因为,Python的标准做法似乎是将n级别扩展到对我而言似乎不是最佳的n虚拟对象(sklearns OneHotEncoder或Pandas pd.get_dummies)。 作为编码决策树分类功能的最佳做法,您有何建议?

3
为什么增强方法对异常值敏感
我发现有许多文章指出增强方法对异常值很敏感,但没有文章解释原因。 以我的经验,离群值对于任何机器学习算法都是不利的,但是为什么提升方法特别敏感? 下列算法如何在对异常值的敏感性方面进行排名:增强树,随机森林,神经网络,SVM和简单回归方法(例如逻辑回归)?


1
决策树中二进制拆分的实现差异
我对决策树中二进制拆分的实际实现感到好奇-因为它与分类预测变量级别有关。XjXjX{j} 具体来说,在使用决策树构建预测模型时,我经常会使用某种采样方案(例如装袋,过采样等),以提高其预测准确性和稳定性。在这些采样例程中,可以将类别变量以小于完整级别集的形式显示给树拟合算法。 假设变量X具有水平{A,B,C,D,E}。在样本中,可能仅{A,B,C,D}存在水平。然后,当将结果树用于预测时,可以存在全套。 继续此示例,假设一棵树在X上分裂并{A,B}向左和{C,D}向右发送。当面对新数据时,我希望二进制拆分的逻辑会这样说:“如果X具有值A或B,则向左发送,否则,将这种情况向右发送”。在某些实现中似乎发生了“如果X的值为A或B,则发送到左侧,如果X的值为C或D,则发送到右侧”。当这种情况采用值E时,算法将崩溃。 处理二进制拆分的“正确”方法是什么?似乎经常但不是总是实施更健壮的方法(请参阅下面的Rpart)。 这是几个例子: Rpart失败,其他都还可以。 #test trees and missing values summary(solder) table(solder$PadType) # create train and validation set.seed(12345) t_rows<-sample(1:nrow(solder),size=360, replace=FALSE) train_solder<-solder[t_rows,] val_solder<-solder[-t_rows,] #look at PadType table(train_solder$PadType) table(val_solder$PadType) #set a bunch to missing levels(train_solder$PadType)[train_solder$PadType %in% c('L8','L9','W4','W9')] <- 'MISSING' #Fit several trees, may have to play with the parameters to …

2
面板数据的机器学习算法
在这个问题中- 是否有一种考虑结构化/分层/多级预测变量的构造决策树的方法?-他们提到了树木的面板数据方法。 是否有支持矢量机和神经网络的特定面板数据方法?如果是这样,您能否引用一些有关算法和实现它的R包的文章?

2
随机森林是否表现出预测偏差?
我认为这是一个直截了当的问题,尽管为什么或为什么不是背后的原因可能不是。我问的原因是,我最近编写了自己的RF实施,尽管它的性能很好,但性能却不如我预期(根据Kaggle照片质量预测比赛数据集,获胜得分以及一些有关使用了哪些技术的后续信息)。 在这种情况下,我要做的第一件事是模型的图形预测误差,因此对于每个给定的预测值,我都确定了偏离正确目标值的平均偏差(或偏差)。对于我的RF,我得到以下图: 我想知道这是否是RF的常见偏差模式(如果不是,则可能是数据集和/或我的实现所特有的)。我当然可以使用该图通过补偿偏差来改善预测,但我想知道RF模型本身是否存在更基本的误差或缺点,需要解决。谢谢。 ==附录== 我的初步调查是在此博客条目随机森林偏见-更新


2
决策树和回归-预测值是否超出训练数据范围?
对于决策树,预测值是否可以超出训练数据的范围? 例如,如果目标变量的训练数据集范围是0-100,那么当我生成模型并将其应用于其他对象时,我的值可以为-5吗?还是150? 鉴于我对决策树回归的理解是,它仍然是基于规则的-左/右进展,并且在训练集中的树的底部,它永远不会看到超出特定范围的值,因此它将永远无法预测吗?


3
电影收视率预测的分类模型
我对数据挖掘有些陌生,并且正在研究用于电影收视率预测的分类模型。 我已经从IMDB收集了数据集,并计划在模型中使用决策树和最近邻方法。我想知道哪种免费的数据挖掘工具可以提供我需要的功能。

2
决策树空间与随机森林的MCMC采样
一个随机森林是一家集决策树通过随机选择只是某些功能建立与(有时装袋训练数据),每棵树形成。显然,他们学习并概括得很好。是否有人对决策树空间进行了MCMC采样或将它们与随机森林进行了比较?我知道运行MCMC并保存所有采样树可能在计算上更加昂贵,但是我对这个模型的理论特性感兴趣,而不是计算成本。我的意思是这样的: 构造一个随机决策树(它可能会表现得很差) 用类似计算树的可能性,或者添加一个项。P(T[R Ë Ë | D a t a )∝ P(D a t a | T[R Ë Ë )P(Ť[RËË|d一种Ť一种)∝P(d一种Ť一种|Ť[RËË)P(Tree|Data) \propto P(Data|Tree)Pp - [R 我ö ř(T[R Ë Ë )Pp[R一世Ø[R(Ť[RËË)P_{prior}(Tree) 选择一个随机步骤来更改树,然后根据似然度。P(T[R Ë Ë | d一吨一)P(Ť[RËË|d一种Ť一种)P(Tree|Data) 每N步,保存当前树的副本 返回3进行大的N * M次 使用M个保存的树的集合进行预测 这会给随机森林一个类似的表现吗?请注意,与随机森林不同,我们在任何步骤都不会丢弃好数据或功能。

2
将分类树(部分)组织成一组规则?
一旦使用rpart(在R中)构造了复杂的分类树,是否有办法组织为每个类生成的决策规则?因此,对于每一个类,我们都有一套规则,而不是得到一棵大树? (如果是,如何?) 这是一个简单的代码示例,显示以下示例: fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) 谢谢。
11 r  classification  cart  rpart 

3
是否有适用于使用稀疏预测器和响应的类似于CART的方法的库?
我正在使用R中的gbm包处理一些大型数据集。我的预测变量矩阵和响应向量都很稀疏(即,大多数条目为零)。我希望使用一种可以利用这种稀疏性的算法来构建决策树,就像在这里所做的那样。在该论文中,就像我所遇到的情况一样,大多数项目只有许多可能的功能中的少数,因此,除非数据中另有明确说明,否则它们可以通过假设其项目缺少给定功能来避免大量的计算浪费。我的希望是,通过使用这种算法(然后将增强算法包装在其周围以提高预测精度),我可以获得类似的加速效果。 由于他们似乎没有发布代码,所以我想知道是否有针对这种情况优化的开源软件包或库(任何语言)。理想情况下,我想要一种可以直接从R的Matrix包装中获取稀疏矩阵的东西,但我将尽我所能。 我环顾四周,看来应该是这样的事情: 化学家似乎经常遇到这个问题(我上面链接的文章是关于学习寻找新的药物化合物的),但是我可以找到的实现是化学分析的专有或高度专业化的实现。不过,其中之一可能会被重新利用。 文档分类似乎也是从稀疏特征空间学习的一个有用的领域(大多数文档包含的单词不多)。例如,有一个倾斜的参考稀疏实施C4.5的(一个手推车类算法)在本文中,但不包含代码。 根据邮件列表,WEKA可以接受稀疏数据,但是与我上面链接的论文中的方法不同,WEKA在避免浪费CPU周期方面并未进行优化以实际利用它。 提前致谢!

2
为什么袋装树/随机森林树比单个决策树具有更高的偏差?
如果我们考虑一个完整的决策树(即未修剪的决策树),则它具有高方差和低偏差。 套袋和随机森林使用这些高方差模型并对其进行汇总,以减少方差,从而提高预测准确性。套袋和随机森林都使用Bootstrap采样,并且如“统计学习的要素”中所述,这会增加单个树中的偏差。 此外,由于随机森林方法限制了允许在每个节点上拆分的变量,因此单个随机森林树的偏差会进一步增加。 因此,如果套袋和随机森林中单棵树的偏差增加不会“过度”使变化减少,则只能提高预测精度。 这使我想到以下两个问题:1)我知道使用引导程序抽样时,(几乎总是)我们在引导程序样本中会有一些相同的观察结果。但是,为什么这会导致套袋/随机森林中单个树木的偏见增加?2)此外,为什么对每个拆分中要拆分的可用变量的限制会导致随机森林中各个树的偏倚更高?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.