Answers:
我怀疑在进行一些模拟研究之前,对这个问题将没有明确的答案。同时,我发现了Genuer等人的《随机森林》:一些方法学的见解帮助对此问题提出了一些观点,至少在针对各种“低n,高p”数据集测试RF方面。其中一些数据集具有> 5000个预测变量和<100个观测值!
您将遇到的故障模式是,有了足够的随机特征,将在每个树使用的袋装样本中存在与目标相关的特征,而在较大的数据集中则不存在。与多次测试中类似的问题。
很难制定经验法则,因为发生这种情况的确切时间取决于噪声量和数据中信号的强度。还存在通过使用多个测试校正的p值作为分割标准,基于可变重要性进行特征选择步骤和/或将特征重要性与通过随机排列实际特征而产生的人工对比特征进行比较的特征选择步骤来解决此问题的方法箱包以验证拆分选择和其他方法。这些可能非常有效。
我在具有约1000个案例和30,000-1,000,000个特征的数据集上使用了随机森林(包括一些上述方法上的调整)。(人类遗传学中具有不同特征选择或工程水平的数据集)。它们肯定可以有效地恢复此类数据中的强信号(或批量效应),但不能很好地将诸如具有多种原因的疾病之类的东西拼凑在一起,因为随机变化量可以克服每个信号
它还将取决于数据中的信号和噪声。如果通过模型中变量的组合很好地解释了因变量,那么我认为您可以以较低的n / p比摆脱困境。
我怀疑除了比例之外,要获得一个体面的模型还需要绝对最小数n。
一种看待它的方法是,每棵树都是使用大约SQRT(p)变量构建的,并且如果该数目很大而点的数量很小,则可以在没有真正模型的情况下拟合树。因此,许多这样的过度拟合树将给变量带来错误的重要性。
通常,如果在可变重要性图表中,我看到许多具有几乎相同水平的重要变量,那么我得出的结论是,这只是给我带来了噪音。