我一直在这里浏览各种线程,但我认为我的确切问题没有得到回答。
我有约50,000名学生及其辍学时间的数据集。我将使用大量潜在的协变量进行比例风险回归。我还将对辍学/留学情况进行逻辑回归。主要目标是为新的学生群体做预测,但我们没有理由相信他们与去年的学生群体会有很大不同。
通常,我没有这么多的数据,并且通过某种形式的惩罚进行模型拟合,但是这次我想将int训练和测试数据集分离,然后在训练集上进行变量选择。然后使用测试数据集估算参数和预测能力。
这是个好策略吗?如果没有,哪个更好?
欢迎引用,但不是必须的。