Answers:
虽然我对您的问题没有直接的见解,但我遇到了一些研究论文,这可能对您很感兴趣。也就是说,当然,如果我正确理解您在谈论稀疏PCA,主成分回归和相关主题。在这种情况下,以下是论文:
交叉验证结果还用于确定LSI空间的最佳尺寸数。太少的维度没有利用数据的预测能力;而尺寸过多会导致过拟合。图4显示了具有不同数量LSI尺寸的模型的平均误差分布。具有四维LSI空间的模型产生的平均错误数最少,而错误的中值数也最少,因此最终模型是使用四维LSI空间构建的。
如果您不是ieee成员,我可以发布副本。
这是我在本科生写的一篇论文。我遇到一个问题,需要决定在逻辑回归模型中使用多少维(潜在语义索引类似于PCA)。我所做的就是选择一个指标(即,使用标记概率为.5时的错误率),并查看了在不同数量的维度上训练的不同模型的错误率分布。然后,我选择了错误率最低的模型。您可以使用其他指标,例如ROC曲线下的面积。
您还可以使用逐步回归之类的方法为您选择尺寸数。您具体执行哪种类型的回归?
稀疏顺便说一句是什么意思?