我有包含24行每月数据的数据集。这些功能包括GDP,机场到达,月份和其他一些信息。因变量是热门旅游目的地的游客人数。随机森林会适合这样的问题吗?
数据是非公开的,所以我无法发布样本。
通常,对随机森林的一个限制是您的要素数量应该很大-RF的第一步是选择1 / 3n或sqrt(n)要素来构建树(取决于任务,回归/分类)。因此,如果您有很多功能,那么即使在小型数据集上也要使用RF-没有一种算法在小型数据集上能很好地发挥作用,因此您什么也不会松懈。
—
德国的德米多夫
您处于低射程。RF可以工作,但可能不会学习比从原始数据中看到的东西复杂得多的东西。如果您的数据噪声非常低,它将很有帮助。从40至50个样本开始变好。500好。5000很棒
—
索伦·哈弗隆德·威灵
为了进行回归,可能的树深度受minnode = 5的限制,因此您的样本平均不会分裂超过2倍[[24->(1)12->(2)6。]]包括mtry限制,模型将很难捕获任何交互效应,甚至是简单的非线性效应。您可以摆弄minnode和mtry,但是只有在您的数据几乎没有噪音的情况下才应该这样做。合适的结论可能是另一面。您将获得模型结构,看起来像是一个大致平滑的阶跃函数。
—
索伦·哈弗隆德·威灵
对于小型数据集,请使用交叉验证技术。欲了解更多信息,stats.stackexchange.com/questions/19048/...
—
阿西汗