我正在做一个项目,需要资源来使我快速入门。
数据集是关于30个左右变量的大约35000个观测值。大约一半的变量是类别变量,有些变量具有许多可能的值,即,如果将类别变量拆分为虚拟变量,则将有30多个变量。但是最大数量仍然可能达到几百个。(n> p)。
我们要预测的响应是5级(1,2,3,4,5)的序数。预测变量是连续的和分类的,每个变量的大约一半。到目前为止,这些是我的想法/计划:1.将响应视为连续并运行香草线性回归。2.运行名义和有序逻辑和概率回归3.使用MARS和/或另一种非线性回归
我熟悉线性回归。Hastie和Tibshirani对火星有足够的描述。但是当涉及到序数logit / probit时,我却茫然无措,尤其是在变量如此多且数据集很大的情况下。
到目前为止,r包glmnetcr似乎是我最好的选择,但是文档不足以让我知道我要去的地方。
我在哪里可以了解更多?