我对统计学习(SL)教学法的一种批评是,在评估不同的建模技术时缺乏计算性能方面的考虑。SL着重于引导和交叉验证以优化/测试模型,因此计算量很大。再加上诸如装袋和增强之类的技术中所嵌入的重新采样,您就可以在大型数据集的有监督学习中拥有计算能力。实际上,R的内存约束对模型的大小施加了相当严格的限制,可以通过性能最佳的方法(如随机森林)来拟合模型的大小。尽管SL在针对小型数据集校准模型性能方面做得很好,但了解大型数据的性能与计算成本的关系一定会很不错。
R的内存约束是什么,它们是否对可以通过性能最佳的方法(例如随机森林)拟合的模型大小施加严格限制?