Questions tagged «boosting»

一系列算法将弱预测模型组合成强预测模型。最常用的方法称为梯度增强,最常用的弱模型是分类/回归树。

1
Scikit二项式偏差损失函数
这是scikit GradientBoosting的二项式偏差损失函数, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

2
为什么选择Adaboost和决策树?
我已经阅读了一些有关分类任务的增强算法,尤其是Adaboost。我了解Adaboost的目的是招募几个“弱学习者”,并通过对训练数据进行一系列迭代,推动分类器学习预测模型反复犯错的类。但是,我想知道为什么我所做的许多阅读都使用决策树作为弱分类器。是否有特定原因?是否有某些分类对于Adaboost而言特别好坏?

1
如何为R中的每个预测计算回归的置信度得分(使用随机森林/ XGBoost)?
使用随机森林或极端梯度增强(XGBoost)之类的算法时,是否可以获取每个预测值的置信度得分(也可以称为置信度值或似然度)?假设此置信度得分介于0到1之间,表示我对特定预测的信心如何。 根据我在互联网上发现的有关信心的信息,通常用间隔来衡量。这是一个使用库中confpred函数计算的置信区间的示例lava: library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T, col=Col("blue"), border=F)) } 代码输出仅给出置信区间: 还有一个库conformal,但我也将其用于回归的置信区间:“共形允许在共形预测框架中计算预测误差:(i)用于分类的p。值,以及(ii)回归的置信区间。 ” …

1
随机森林vs Adaboost
在《随机森林》(Breiman,1999年)的第7节中,作者提出了以下猜想:“ Adaboost是随机森林”。 有没有人证明或反对这一点?为证明或反驳1999年以后的职位采取了哪些措施?

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
梯度树增强中的树大小
弗里德曼(Friedman)提出的梯度树增强使用具有J终端节点(= leaves)的决策树作为基础学习者。可以通过多种方式来生长具有确切J节点的树,例如,可以以深度优先或宽度优先的方式生长树... 有没有建立好的方法来生长带有完全J末端节点的树以进行梯度树增强? 我检查了R gbm包的树生长过程,似乎它以深度优先的方式扩展树,并使用基于错误改进的启发式方法选择扩展左还是右子节点-是正确的吗?
10 r  cart  boosting 

1
线性基础学习器如何促进学习?以及它如何在xgboost库中工作?
我知道如何在XGBoost中实现线性目标函数和线性提升。我的具体问题是:当算法适合残差(或负梯度)时,是在每个步骤使用一个特征(即单变量模型)还是在所有特征(多元模型)中使用? 任何有关XGBoost中线性增强功能的文档参考都将受到赞赏。 编辑:通过将“ booster”参数设置为“ gblinear”,可以在XGBoost中实现线性增强。有关线性增强的有用信息,请参见:http : //www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/。请注意,我并不是在谈论目标函数(也可以是线性的),而是关于提升它们自己。 谢谢!

1
协调增强的回归树(BRT),广义增强的模型(GBM)和梯度增强的机器(GBM)
问题: 增强回归树(BRT)和广义增强模型(GBM)有什么区别?它们可以互换使用吗?一种是另一种的特定形式吗? 为什么里奇韦(Ridgeway)为什么使用短语“广义增强回归模型”(GBM)来描述弗里德曼以前提出的“梯度增强机”(GBM)?这两个首字母缩略词是相同的,描述相同的事物,但是源自不同的短语。 背景: 我无法确定术语BRT和GBM有何不同。据我所知,这两个术语都是用来描述分类树和回归树的,这些树通过某种增强(例如装袋,自举,交叉验证)而具有随机性。另外,据我所知,GBM是由Friedman(2001)在他的论文“ Greedy函数逼近:梯度提升机”中首次提出的。然后,Ridgeway实施了Friedman在2006年的软件包“广义增强回归模型”(GBM)中描述的过程。在我的领域(生态学)中,Elith等人。(2008)是第一个证明Ridgeway gbm进行物种分布建模的软件包。但是,Elith等的作者。使用术语“增强的回归树”(BRT)来描述Friedman和Ridgeway' 我对这些术语是否可以互换使用感到困惑?令人困惑的是,一个作者使用相同的首字母缩写词(来自不同的短语)来描述先前作者提出的相同理论。同样令人困惑的是,第三作者在用生态学术语描述这一理论时使用了一个完全不同的术语。 我能想到的最好的是BRT是GBM的一种特定形式,其中的分布是二项式的,但是我不确定。 Elith等。像这样定义增强的回归树…“增强的回归树结合了两种算法的优势:回归树(通过递归二进制分裂将响应与其预测变量联系起来的模型)和增强(将多种简单模型组合在一起以提供改进的预测性能的自适应方法)最终的BRT模型可以理解为加性回归模型,其中单个术语是简单的树,以向前,逐步的方式拟合”(Elith等,2008)。

2
袋外误差估计是否可以增强?
在随机森林中,每棵树都是在数据的唯一Boostrap样本上并行生长的。由于预计每个Bo​​ostrap样本将包含约63%的独特观测值,因此将约37%的观测值排除在外,可用于测试树。 现在,似乎在随机梯度增强中,还有一个类似于RF中的估计:OOBerrorOOBerrorOOB_{error} 如果bag.fraction设置为大于0(建议为0.5),则gbm将计算出袋装的预测性能改善估计值。它评估在选择下一个回归树时未使用的那些观察结果的偏差减少。 资料来源:Ridgeway(2007),第3.3节(第8页)。 我无法理解其工作方式/是否有效。说我要按顺序添加一棵树。我正在原始数据集的随机子样本上生长这棵树。我可以在不用于生长的观察结果上测试这棵树。同意 但是,由于Boosting是顺序的,所以我宁愿使用到目前为止构建的整个树序列来为那些遗漏的观察提供预测。而且,前面的许多树木很有可能已经看到了这些观察结果。因此,不是真的像RF一样在每个回合上都未对模型进行过测试,对吗? 那么,这怎么称为“袋外”误差估计呢?对我来说,似乎已经被发现了吗?

2
如何在助推树中找到调整参数的最佳值?
我意识到在Boosting Trees模型中有3个调整参数,即 树数(迭代数) 收缩参数 分割数(每个构成树的大小) 我的问题是:对于每个调整参数,我应该如何找到其最佳值?什么方法? 请注意:收缩参数和树木数量参数一起使用,即收缩参数的值越小,树木数量的值就越高。我们也需要考虑到这一点。 我对为分割数找到最佳值的方法特别感兴趣。是否应该基于交叉验证或有关背后模型的领域知识? 这些事情如何gbm在R 的包中进行?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.