随机森林适合于非常小的数据集吗?


13

我有包含24行每月数据的数据集。这些功能包括GDP,机场到达,月份和其他一些信息。因变量是热门旅游目的地的游客人数。随机森林会适合这样的问题吗?

数据是非公开的,所以我无法发布样本。


通常,对随机森林的一个限制是您的要素数量应该很大-RF的第一步是选择1 / 3n或sqrt(n)要素来构建树(取决于任务,回归/分类)。因此,如果您有很多功能,那么即使在小型数据集上也要使用RF-没有一种算法在小型数据集上能很好地发挥作用,因此您什么也不会松懈。
德国的德米多夫

您处于低射程。RF可以工作,但可能不会学习比从原始数据中看到的东西复杂得多的东西。如果您的数据噪声非常低,它将很有帮助。从40至50个样本开始变好。500好。5000很棒
索伦·哈弗隆德·威灵

为了进行回归,可能的树深度受minnode = 5的限制,因此您的样本平均不会分裂超过2倍[​​[24->(1)12->(2)6。]]包括mtry限制,模型将很难捕获任何交互效应,甚至是简单的非线性效应。您可以摆弄minnode和mtry,但是只有在您的数据几乎没有噪音的情况下才应该这样做。合适的结论可能是另一面。您将获得模型结构,看起来像是一个大致平滑的阶跃函数。
索伦·哈弗隆德·威灵


对于小型数据集,请使用交叉验证技术。欲了解更多信息,stats.stackexchange.com/questions/19048/...
阿西汗

Answers:


4

随机森林基本上是对样本进行自举重采样和训练决策树,因此问题的答案需要解决这两个问题。

引导重采样不是小样本治愈。如果您的数据集中只有二十四个观测值,那么从该数据中进行替换获得的每个样本将不超过二十四个不同值。整理案例而不画一些案例不会对您学习有关基础分布的新知识的能力产生很大的影响。因此,小样本引导程序的问题。

通过在预测变量(一次变量)上有条件地拆分数据来训练决策树,以找到具有最大区分能力的子样本。如果您只有二十四个案例,那么请说,如果您很幸运并且所有拆分的大小均等,那么使用两个拆分,您将最终得到四组,每组六个案例,其中有树拆分,八组,每组三个。如果您在样本上计算条件均值(以预测回归树中的连续值,或决策树中的条件概率),则只能基于这几种情况得出结论!因此,用于决策的子样本甚至比原始数据还要小。

对于小样本,通常明智的方法使用简单的方法。此外,您可以在贝叶斯环境中使用信息先验来捕获较小的样本(如果您对问题有合理的数据外知识),因此可以考虑使用一些量身定制的贝叶斯模型。


1

一方面,这是一个很小的数据集,而随机森林则需要大量数据。

另一方面,也许总比没有好。除了“尝试一下”之外,没有什么可说的。您可以决定是否有任何特定模型是“良好”的;而且,我们无法告诉您任何模型是否都适合特定目的(您也不希望我们-如果我们做错了,对我们来说没有任何代价!)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.