纵向数据的机器学习技术


11

我想知道是否有用于纵向数据建模的机器学习技术(无监督)?我一直使用混合效果模型(大多数是非线性的),但我想知道是否还有其他方法(使用机器学习)。

机器学习是指随机森林,分类/聚类,决策树甚至是深度学习等。


您能否定义“机器学习”的含义?适当分层后,您可以增强LME。实际上那将是很新颖的!
usεr11852

@usεr11852,我为问题添加了更多的解释,希望这可以使它更加澄清。
John_dydx

啊...根据您的定义,提升不是ML。酷谢谢您的澄清,希望很快会引起注意。
usεr11852

……而且也有所助益。
John_dydx

3
这个问题似乎很模糊。“机器学习”是一个广义术语,甚至是“随机森林,分类/聚类,决策树甚至深度学习等”类别。相当广泛。是否有您感兴趣的清晰应用程序?例如,如果需要分类二项输出,则可以使用逻辑混合效应模型或逻辑GEE。机器学习和统计模型不一定适用于不同的事物。
乔恩(Jon)

Answers:


7

在来自一个受试者的多个观察结果(例如,来自同一患者的多次访问)的情况下,“患者ID”是“分组”变量。在模型评估期间必须小心,以免来自同一患者的拜访不会出现在训练和测试数据中,因为它们是相关的,并且会导致分类器准确性的提高

交叉验证sklearn文档具有分组数据的交叉验证迭代器。请参阅GroupKFoldLeaveOneGroupOutLeavePGroupsOut

更好的是,尝试递归神经网络隐马尔可夫模型


4

您可以使用标准的机器学习方法对纵向模型进行建模,只需添加代表纵向的特征即可,例如通过添加代表时间的特征。或指示组,个人等成员身份的功能(在面板数据案例中)。

如果您对功能创建/提取很有创意,则可以使用ML算法为任何模型建模。


1
@PhlippePro,这个答案让我有些困惑。(1)如果您想预测不在训练集中的人怎么办?您只有训练集中的系数,对吗?(2)假设您的数据集中有100,000个人,那么添加对应于person的特征可能会导致最多增加100,000个新的虚拟变量。这些新功能正好适合原始功能吗?
user0

(1)如果在训练数据集中没有要预测的人员,则不能使用“人员特征”,这是正确的。(2)除了制作虚拟特征,您还可以制作一个“分类”特征(例如,在R中使用as.factor将其指定为分类)。有些算法不能处理这么多的类别(例如,例如randomForest仅能处理大约50种),那么您实际上必须将它们指定为虚拟变量,并且您会指出(太多)功能。
PhilippPro

ML不太容易转换为纵向数据
阿克萨卡(Aksakal)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.