我正在尝试使用具有连续结果的LASSO对一些候选预测变量进行模型选择。目标是选择具有最佳预测性能的最佳模型,通常可以从LASSO获得调整参数的求解路径后,通过K倍交叉验证来完成。这里的问题是数据来自复杂的多阶段调查设计(NHANES),并进行了聚类采样和分层。估计部分并不难,因为glmnet
R中可以获取采样权重。但是交叉验证部分对我而言不太清楚,因为现在不再观察到观测值了,该程序如何解释代表有限总体的权重采样?
所以我的问题是:
1)如何对复杂的调查数据进行K折交叉验证以选择最佳调整参数?更具体地说,如何将样本数据适当地划分为训练集和验证集?以及如何定义预测误差的估计?
2)是否有选择最佳调整参数的替代方法?