Questions tagged «ensemble»

在机器学习中,集成方法结合了多种算法进行预测。套袋,加强和堆叠是一些示例。

4
可以将随机森林方法论应用于线性回归吗?
随机森林通过创建决策树的集合来工作,其中每棵树都是使用原始训练数据的引导样本(输入变量和观察值的样本)创建的。 可以将类似的过程应用于线性回归吗?使用随机引导样本为k个回归中的每一个创建k个线性回归模型 不创建类似模型的“随机回归”的原因是什么? 谢谢。如果有什么我只是从根本上误会了,请告诉我。

1
在随机森林上使用LASSO
我想使用以下过程创建一个随机森林: 使用信息增益确定拆分,在数据和要素的随机样本上构建树 如果叶子节点超过预定深度,则终止该叶子节点,否则任何拆分都会导致叶子数少于预定最小值 而不是为每棵树分配一个类标签,而是在叶节点中分配类的比例 在构建了预定义数量之后停止构建树木 这从两个方面打破了传统的随机森林过程。第一,它使用分配比例而不是类标签的修剪树。第二,停止标准是树木的预定数量,而不是一些袋外误差估计。 我的问题是这样的: 对于上面输出N棵树的过程,我可以使用Logistic回归和LASSO选择来拟合模型吗?有没有人有经验适合随机森林分类器并使用逻辑LASSO进行后处理? ISLE框架提到使用LASSO作为回归问题(而非分类问题)的后处理步骤。此外,在搜索“随机森林套索”时,我没有得到任何有用的结果。

1
为什么不总是使用集成学习?
在我看来,集成学习将始终比仅使用单个学习假设提供更好的预测性能。 那么,为什么我们不一直使用它们呢? 我的猜测可能是因为计算方面的限制?(即使那样,我们也使用弱预测变量,所以我也不知道)。

6
学习如何实现集成方法的资源
我从理论上了解了它们的工作方式(但有一定的了解),但不确定如何实际使用集成方法(例如投票,加权混合等)。 有什么好的资源可以实现集成方法? 是否有关于Python实现的特殊资源? 编辑: 为了根据讨论的讨论清理一些内容,我不是在寻找诸如randomForest等的集成算法。而是,我想知道如何组合不同算法的不同分类。 例如,假设某人使用逻辑回归,SVM和其他一些方法来预测某个观测值的类别。根据这些预测来获取班级的最佳估计的最佳方法是什么?

2
将回归系数平均以建立模型是否存在任何理论问题?
我想构建一个回归模型,该模型是多个OLS模型的平均值,每个模型都基于完整数据的子集。其背后的思想是基于本文的。我创建k个折叠并建立k个OLS模型,每个模型都基于没有折叠之一的数据。然后,我平均回归系数以获得最终模型。 这让我印象深刻,类似于随机森林回归,其中建立了多个回归树并将其平均。但是,平均OLS模型的性能似乎比仅在整个数据上构建一个OLS模型差。我的问题是:为多个OLS模型求平均有理论上的错误或不合需要的理由吗?我们可以期望平均多个OLS模型来减少过度拟合吗?下面是一个R示例。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …

3
集合时间序列模型
我需要自动进行时间序列预测,而且我事先不知道这些序列的功能(季节性,趋势,噪音等)。 我的目标不是为每个系列获得最佳模型,而是避免出现非常糟糕的模型。换句话说,每次都会出现小错误不是问题,但是偶尔会出现大错误是一个问题。 我认为我可以通过组合使用不同技术计算的模型来实现。 也就是说,尽管ARIMA对于特定系列来说是最好的方法,但对于其他系列来说可能不是最好的方法。指数平滑也一样。 但是,如果我将每种技术中的一个模型组合在一起,即使一个模型不太好,另一个模型也会使估算值更接近真实值。 众所周知,ARIMA在长期行为良好的序列中效果更好,而指数平滑在短期噪声序列中表现突出。 我的想法是结合使用两种技术生成的模型以获得更可靠的预测,这有意义吗? 可能有很多方法可以合并这些模型。 如果这是一个好方法,我应该如何将它们结合起来? 一个简单的预测平均值方法是一个选择,但是如果我根据模型的某种优度度量对平均值进行加权,也许可以得到更好的预测。 合并模型时对方差的处理方式是什么?

1
集成学习:为什么模型堆叠有效?
最近,我对模型堆叠作为集成学习的一种形式感兴趣。特别是,我对回归问题进行了一些玩具数据集实验。我基本上已经实现了单个“ 0级”回归器,将每个回归器的输出预测存储为新功能,以供“元回归器”作为其输入,并将此元回归器适应这些新功能(来自该层的预测0个回归指标)。当针对验证集测试元回归器时,我对单个回归器的适度改进感到非常惊讶。 所以,这是我的问题:为什么模型堆叠有效?凭直觉,我希望进行堆叠的模型表现不佳,因为与每个0级模型相比,它的要素表示似乎很差。也就是说,如果我在具有20个特征的数据集上训练3个0级回归变量,并使用这些0级回归变量的预测作为我的元回归变量的输入,这意味着我的元回归变量只有3个特征可供学习。似乎0级回归器用于训练的20种原始功能中编码的信息比元回归器用于训练的3种输出功能要多。

3
小n大p问题中基于树的集成方法的极限?
基于树的集成方法(例如,Random Forest和随后的导数(例如,条件森林))都声称可用于所谓的“ small n,large p ”问题,以识别相对变量的重要性。确实,情况确实如此,但是我的问题是,这种能力可以走多远?可以说30个观察值和100个变量吗?这种方法的突破点是什么,是否存在任何体面的经验法则?我希望并接受使用模拟或真实数据集的,以实际证据(而非推测)为链接的答案。我对后者没有太多了解(在这里和这里),因此非常欢迎您提出想法/建议/(关于主题)参考建议!

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.