假设您正在分析每天有数十亿个观测值的巨大数据集,其中每个观测值都有数千个稀疏值,可能还有多余的数值和类别变量。假设存在一个回归问题,一个不平衡的二元分类问题,以及一项“找出最重要的预测变量”的任务。我对如何解决该问题的想法是:
在数据的越来越大(随机)子样本上拟合一些预测模型,直到:
拟合和交叉验证模型在计算上变得困难(例如,我的笔记本电脑运行异常缓慢,R内存不足等),或者
训练和测试RMSE或精度/召回值稳定。
如果训练和测试错误不稳定(1.),请使用更简单的模型和/或实施该模型的多核或多节点版本,然后从头开始。
如果训练和测试错误稳定下来(2.):
如果(即,我仍然可以在上运行算法,因为它还不太大),请尝试通过扩展特征空间或使用更复杂的模型并从头开始重新启动来提高性能。X 小号ü b 小号Ë 吨
如果是'large'并且进行进一步的分析是昂贵的,则分析变量的重要性并结束分析。
我打算使用像包biglm
,speedglm
,multicore
,和ff
R中最初,并在以后使用更复杂的算法和/或多节点(上EC2)是必要的。
这听起来像是一种合理的方法吗?如果是,那么您是否有任何具体建议或建议?如果没有,那么您将尝试使用这种大小的数据集吗?