小n大p问题中基于树的集成方法的极限?


10

基于树的集成方法(例如,Random Forest和随后的导数(例如,条件森林))都声称可用于所谓的“ small n,large p ”问题,以识别相对变量的重要性。确实,情况确实如此,但是我的问题是,这种能力可以走多远?可以说30个观察值和100个变量吗?这种方法的突破点是什么,是否存在任何体面的经验法则?我希望并接受使用模拟或真实数据集的,以实际证据(而非推测)为链接的答案。我对后者没有太多了解(在这里这里),因此非常欢迎您提出想法/建议/(关于主题)参考建议!

Answers:


3

我怀疑在进行一些模拟研究之前,对这个问题将没有明确的答案。同时,我发现了Genuer等人的《随机森林》:一些方法学的见解帮助对此问题提出了一些观点,至少在针对各种“低n,高p”数据集测试RF方面。其中一些数据集具有> 5000个预测变量和<100个观测值!


3

您将遇到的故障模式是,有了足够的随机特征,将在每个树使用的袋装样本中存在与目标相关的特征,而在较大的数据集中则不存在。与多次测试中类似的问题。

很难制定经验法则,因为发生这种情况的确切时间取决于噪声量和数据中信号的强度。还存在通过使用多个测试校正的p值作为分割标准,基于可变重要性进行特征选择步骤和/或将特征重要性与通过随机排列实际特征而产生的人工对比特征进行比较的特征选择步骤来解决此问题的方法箱包以验证拆分选择和其他方法。这些可能非常有效。

我在具有约1000个案例和30,000-1,000,000个特征的数据集上使用了随机森林(包括一些上述方法上的调整)。(人类遗传学中具有不同特征选择或工程水平的数据集)。它们肯定可以有效地恢复此类数据中的强信号(或批量效应),但不能很好地将诸如具有多种原因的疾病之类的东西拼凑在一起,因为随机变化量可以克服每个信号


0

它还将取决于数据中的信号和噪声。如果通过模型中变量的组合很好地解释了因变量,那么我认为您可以以较低的n / p比摆脱困境。

我怀疑除了比例之外,要获得一个体面的模型还需要绝对最小数n。

一种看待它的方法是,每棵树都是使用大约SQRT(p)变量构建的,并且如果该数目很大而点的数量很小,则可以在没有真正模型的情况下拟合树。因此,许多这样的过度拟合树将给变量带来错误的重要性。

通常,如果在可变重要性图表中,我看到许多具有几乎相同水平的重要变量,那么我得出的结论是,这只是给我带来了噪音。


SQRT(p)来自哪里?
LauriK,2015年

在RandomForest中,每棵树都是使用变量样本构建的。默认情况下(R randomForest包中的至少),它采用的值是小于或等于SQRT(p)的最接近的数字,其中p是列数。
DeepakML 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.