Questions tagged «cart»

“分类树和回归树”。CART是一种流行的机器学习技术,它构成了诸如随机森林和梯度增强机器的常见实现之类的技术的基础。

1
决策树在哪些实现中需要变量(特征)缩放和变量(特征)归一化(调整)?
在很多机器学习算法,特征缩放(又名可变缩放,标准化)是一种常见的prepocessing一步维基百科-特征缩放 -这个问题是接近问题#41704 -如何以及为什么做归一化和特征缩放工作? 关于决策树,我有两个问题: 是否有任何需要特征缩放的决策树实现?我的印象是,大多数算法的分割标准对规模无动于衷。 请考虑以下变量:(1)单位,(2)小时,(3)每小时-最好是将这三个变量按原样保留在决策树中,否则我们会遇到某种类型的冲突因为“标准化”变量(3)与(1)和(2)有关?也就是说,您是通过将所有三个变量都放入混合中来攻击这种情况,还是通常选择这三个变量的某种组合,或者只是使用“标准化/标准化”功能(3)?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
梯度树增强中的树大小
弗里德曼(Friedman)提出的梯度树增强使用具有J终端节点(= leaves)的决策树作为基础学习者。可以通过多种方式来生长具有确切J节点的树,例如,可以以深度优先或宽度优先的方式生长树... 有没有建立好的方法来生长带有完全J末端节点的树以进行梯度树增强? 我检查了R gbm包的树生长过程,似乎它以深度优先的方式扩展树,并使用基于错误改进的启发式方法选择扩展左还是右子节点-是正确的吗?
10 r  cart  boosting 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
调查人口之间的差异
假设我们有两个样本:A和B。假设这些人口是由个体组成的,我们选择根据特征来描述个体。这些功能中有些是分类的(例如,它们开车上班吗?),有些是数字的(例如,它们的高度)。我们称这些功能为:。我们收集了数百个这样的功能(例如n = 200),为简单起见,我们假设所有个人都没有错误也没有噪音。X1个… XñX1…XnX_1 \ldots X_n 我们假设两个人口是不同的。我们的目标是回答以下两个问题: 它们实际上有很大不同吗? 它们之间有何显着不同? 决策树(例如,随机森林)和线性回归分析等方法可以提供帮助。例如,可以查看随机森林中的要素重要性或线性回归中的拟合系数,以了解可以区分这些类别的要素,并探索要素与种群之间的关系。 在走这条路之前,我想先了解一下我的选择,什么是好做法以及现代与坏做法。请注意,我的目的不是预测本身,而是测试并发现组之间的任何重大差异。 解决该问题的一些原则方法是什么? 这是我的一些担忧: 线性回归分析之类的方法可能无法完全回答(2),对吧?例如,一次拟合可以帮助您找到一些差异,但不是所有明显的差异。例如,多重共线性可能使我们无法找到所有特征在组之间的变化方式(至少在一次拟合中)。出于同样的原因,我希望方差分析也无法提供(2)的完整答案。 尚不清楚预测方法将如何回答(1)。例如,我们应该最小化什么分类/预测损失函数?而且一旦适应后,我们如何测试两组之间是否存在显着差异?最后,我担心我得到的答案(1)可能取决于我使用的特定分类模型集。

2
树估计量总是有偏差的吗?
我正在做决策树作业,我必须回答的问题之一是:“为什么从树中建立的估算器有偏见,而装袋如何帮助减少它们的差异?”。 现在,我知道过度拟合的模型倾向于具有非常低的偏差,因为它们试图拟合所有数据点。而且,我用Python编写了一个脚本,该脚本将树拟合到某些数据集(具有一个功能。它只是一个正弦曲线,带有一些偏离点,如下图所示)。因此,我想知道“好吧,如果我再次过度拟合数据,是否可以将偏差设为零?”。而且,事实证明,即使深度为10000,仍然有一些点无法通过曲线。 我尝试搜索原因,但找不到真正的解释。我猜想可能有些树可以完美地贯穿所有要点,而我得到的只是“运气不好”。或不同的数据集可能给了我无偏见的结果(也许是完美的正弦曲线?)。甚至可以说,也许在一开始就进行了切割,所以进一步切割不可能完全分离所有要点。 因此,考虑到此数据集(由于其他数据集可能有所不同),我的问题是:是否可能使树过度拟合到偏差变为零的点,或者是否总是会有一些偏差,即使实际上小?如果总是至少存在一些偏见,为什么会发生? PS我不知道它是否可能相关,但是我使用DecisionTreeRegressorfrom sklearn将模型拟合到数据中。
9 cart  bias 

2
CART树是否捕获预测变量之间的交互?
此纸的权利要求,在CART,因为在每一步骤的单个协变量执行二进制分裂,所有分割是协变量之间正交,并因此相互作用不考虑。 但是,相反,许多非常严肃的参考文献声称,树的层次结构可以保证自动对预测变量之间的交互进行建模(例如,本文,当然还有Hastie)。 谁是对的?CART生长的树是否捕获输入变量之间的相互作用?

2
如何评估适应功能的优劣
尽管我对分类和回归有一定的了解,但我还是生存分析的新手。 对于回归,我们具有MSE和R平方统计量。但是,除了某种图形化的图(KM曲线),我们如何说生存模型A优于生存模型B? 如果可能的话,请举例说明差异(例如R中的rpart包)。您如何证明一棵CART生存树比另一棵CART生存树好?可以使用哪些指标?

1
如何在rpart()中选择分割数?
我已经使用rpart.control了minsplit=2,并得到了以下结果rpart()功能。为了避免数据过拟合,是否需要使用拆分3或拆分7?我不应该使用拆分7吗?请告诉我。 在树构造中实际使用的变量: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 3 0.158468 0.27281 0.060605 5 0.025035 4 0.130815 0.30120 0.058992 …
9 r  cart  rpart 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.