传统上,我们使用混合模型来建模纵向数据,例如:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
我们可以假设不同人的随机截距或斜率。但是,我要解决的问题将涉及庞大的数据集(数百万人,每天进行1个月的观测,即每个人将进行30次观测),目前我不知道是否有软件包可以完成此级别的数据。
我可以使用spark / mahout,但它们不提供混合模型,我的问题是,是否仍然可以修改数据以便可以使用RandomForest或SVM对此数据集进行建模?
我可以利用任何功能工程技术来帮助RF / SVM解决自相关问题吗?
非常感谢!
一些潜在的方法,但我没有时间把它们写成火花