Questions tagged «cart»

“分类树和回归树”。CART是一种流行的机器学习技术,它构成了诸如随机森林和梯度增强机器的常见实现之类的技术的基础。

2
谁发明了决策树?
我试图追踪谁发明了决策树数据结构和算法。 在维基百科上有关决策树学习的条目中,有一种说法是“ ID3和CART是在大约同一时间(1970年至1980年之间)独立发明的”。稍后在以下位置介绍ID3: 昆兰,JR 1986年。决策树的归纳。马赫 学习。1,1(1986年3月),81-106 所以我不确定这个说法是否正确。 我发现使用Google的书籍是对1959年的《统计决策系列》和1958年的工作论文集的引用。上下文不清楚,他们似乎没有提出算法。但是,他们没有定义数据结构并将其视为众所周知的结构。 使用Google Scholar,我发现了可以追溯到1853年的引文,但这些引文是解析错误,而不是从那时起的实际引文。
24 cart  history 

2
CHAID与CRT(或CART)
我正在使用SPSS在大约20个预测变量(类别很少的类别)的数据集上运行决策树分类。CHAID(卡方自动交互检测)和CRT / CART(分类和回归树)给了我不同的树。谁能解释CHAID与CRT的相对优点?使用一种方法比另一种方法有什么含义?
23 spss  cart 



2
GINI得分与对数似然比之间的关系是什么
我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。 现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。 我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。 问题: GINI杂质评分作为分裂度量的“第一原理”推导是什么? GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)? 参考文献: 加权基尼标准是如何定义的? 分类和回归树背后的数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (已添加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity 香农的熵描述为: H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) 将其扩展到多元情况下,我们得到: H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件熵的定义如下: H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(X|Y)=Σyp(x,y)logb⁡p(x)p(x,y)or,H(X|Y)=H(X,Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

4
决策树几乎总是二叉树吗?
我遇到的几乎每个决策树示例都恰好是一棵二叉树。这是普遍的吗?大多数标准算法(C4.5,CART等)仅支持二进制树吗?据我所知,CHAID不限于二叉树,但这似乎是一个例外。 在其中一个孩子上进行双向拆分然后再进行双向拆分与一次三元拆分是不同的事情。这可能是一个学术观点,但是我试图确保我了解最常见的用例。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
是否有类似决策树的无监督聚类算法?
我有一个由5个要素组成的数据集:A,B,C,D,E。它们都是数字值。我要做的不是以密度为基础的聚类,而是以类似决策树的方式对数据进行聚类。 我的意思是这样的: 该算法可以基于特征C将数据划分为X个初始簇,即,X个簇可以具有小C,中等C,大C和非常大的C值等。接下来,在X个簇节点的每个下,算法进一步划分根据特征A将数据分为Y个簇。算法将继续进行,直到使用了所有特征。 我上面描述的算法就像决策树算法。但是我需要它用于无监督的聚类,而不是有监督的分类。 我的问题如下: 这样的算法已经存在吗?这种算法的正确名称是什么 是否有一个R / python包/库实现了这种算法?


3
决策树桩是线性模型吗?
决策树桩是只有一个拆分的决策树。也可以将其编写为分段函数。 例如,假设是一个矢量,并且X 1是第一部件X,在回归设置,某些决策残端可以是XXxX1个X1个x_1XXx F(x )= { 35X1个≤ 2X1个> 2F(X)={3X1个≤25X1个>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} 但这是线性模型吗?其中可以写成?这个问题听起来可能很奇怪,因为如答案和注释中所述,如果我们绘制分段函数,它就不是一条线。请参阅下一部分,以了解为什么我要问这个问题。F(x )= βŤXF(X)=βŤXf(x)=\beta^T x 编辑: 我问这个问题的原因是逻辑回归是一个(广义的)线性模型,决策边界是一条线,也适用于决策树桩。注意,我们还有一个问题:为什么逻辑回归是线性模型?。另一方面,决策树桩似乎不是线性模型。 我问这个问题的另一个原因是因为这个问题: 在提升时,如果基础学习者是线性模型,那么最终模型是否只是简单的线性模型? 在这里,如果我们使用线性模型作为基础学习者,那么除了线性回归之外,我们什么都不会得到。但是,如果我们选择基础学习者作为决策树桩,那么我们将获得非常有趣的模型。 这是一个具有2个特征和1个连续响应的回归决策树桩示例。

1
什么是“功能空间”?
“特征空间”的解释是什么? 例如,当阅读有关SVM的内容时,我阅读了有关“映射到要素空间”的信息。在阅读有关CART的文章时,我阅读了有关“分区到要素空间”的信息。 我了解正在发生的事情,尤其是对于CART,但是我认为我错过了一些定义。 有“特征空间”的一般定义吗? 是否有定义可以使我更深入地了解SVM内核和/或CART?

3
回归的随机森林是“真实”回归吗?
随机森林用于回归。但是,据我了解,他们为每片叶子分配了一个平均目标值。由于每棵树中只有有限的叶子,因此目标只能从我们的回归模型中获得特定值。因此,不仅是“离散”回归(如阶跃函数),还是像“连续”线性回归一样? 我理解正确吗?如果是,随机森林在回归方面具有什么优势?

2
深度学习与决策树和提升方法
我正在寻找可以比较和讨论(经验或理论上)的论文或文章: Boosting和决策树算法(例如Random Forests或AdaBoost和GentleBoost)应用于决策树。 与 深度学习方法,例如受限玻尔兹曼机,分层时间记忆,卷积神经网络等。 更具体地说,有人知道在速度,准确性或收敛性方面讨论或比较这两种机器学习方法的文章吗?另外,我正在寻找能够解释或总结第二个模块中的模型或方法之间差异(例如优缺点)的文本。 直接解决这种比较的任何指针或答案将不胜感激。

1
决策树的VC维是多少?
二维拆分k个决策树的VC维是多少?假设模型是CART,并且唯一允许的分割与轴平行。 因此,对于一个分割,我们可以在三角形中订购3个点,然后对于这些点的任何标记,我们都可以得到完美的预测(即:破碎点) 但是2分割或任何通用k呢?

1
促进和袋装树木(XGBoost,LightGBM)
有很多关于袋装 或 助树的想法的博客文章,YouTube视频等。我的一般理解是,每个的伪代码为: 套袋: 取N个随机样本,占样本的x%和特征的y% 在每个N上拟合您的模型(例如决策树) 预测每个N 对预测取平均以得出最终预测 提升: 使模型(例如决策树)适合您的数据 获取残差 使模型适合残差 进行2次N轮助推 最终预测是顺序预测变量的加权和。 我将对上面的理解进行任何澄清,但是我想要的问题如下: XGBoost和LightGBM都具有允许打包的参数。该应用程序不是Bagging OR Boosting(每篇博客文章都在谈论),而是Bagging AND Boosting。在何时何地进行装袋和装袋的伪代码是什么? 我以为它是“袋装升压树”,但似乎是“升压袋装树”。差异似乎很大。 袋装助推树: 取N个随机样本,占样本的x%和特征的y% 在N个样本中的每个样本上拟合Boosted树 预测每个N 对预测取平均以得出最终预测 这似乎是最好的方法。毕竟,增加压力的风险是过度安装,装袋的主要好处是减少过度安装;打包一堆增强模型似乎是个好主意。 但是,通过浏览(例如,scikit-learn gradient_boosting.py(用于示例装袋,但不选择随机特征)),并在有关LightGBM和XGBoost的帖子中整理一些小块,看起来XGBoost和LightGBM的工作方式如下: 增强袋装树: 使决策树适合您的数据 对于我在N轮助推中: 获取残差 如果我mod bag_frequency == 0(即每5轮装袋): 取一个随机样本,占样本的x%和特征的y%;继续使用此随机样本 使树适合残差 最终预测是顺序预测变量的加权和。 请在这里更正我的理解并填写详细信息。Boosted Bagged树(每个bag_frequency仅包含1个随机树)似乎不如Bagged Boosted Tree强大。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.