如何为纵向大数据建模?


14

传统上,我们使用混合模型来建模纵向数据,例如:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

我们可以假设不同人的随机截距或斜率。但是,我要解决的问题将涉及庞大的数据集(数百万人,每天进行1个月的观测,即每个人将进行30次观测),目前我不知道是否有软件包可以完成此级别的数据。

我可以使用spark / mahout,但它们不提供混合模型,我的问题是,是否仍然可以修改数据以便可以使用RandomForest或SVM对此数据集进行建模?

我可以利用任何功能工程技术来帮助RF / SVM解决自相关问题吗?

非常感谢!

一些潜在的方法,但我没有时间把它们写成火花

如何将随机效果纳入randomForest

具有纵向数据的SVM回归


1
数据集不是那么大。一百万个主题有30条记录,也许每条记录20字节的数据将带来600MB。没什么。任何统计数据包都可以处理此问题
阿克萨卡(Aksakal),2017年

Answers:


4

如果您只有几个变量(如示例中所示),则的某些变体应该没有问题lme4

机器学习技术真正发挥作用的地方是当您拥有很多变量并且希望对变量之间的非线性和相互作用进行建模时。很少有机器学习方法可以处理纵向数据。RNN是一种选择,尽管通常针对时间序列问题(而非面板数据)进行了优化。

原则上,前馈神经网络是一个(广义的)线性模型,其回归变量是输入数据的非线性函数。如果派生的回归变量-输出之前模型的顶层-被视为非参数部分,那么没有什么可以阻止您与其一起添加参数结构的-可能是以随机效果的形式。

但是,对于分类问题,尚未实现此功能,因为您对SVM感兴趣,所以我认为您正在这样做。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.