选择要包含在回归中的稀疏主成分的数量


Answers:


4

虽然我对您的问题没有直接的见解,但我遇到了一些研究论文,这可能对您很感兴趣。也就是说,当然,如果我正确理解您在谈论稀疏PCA主成分回归和相关主题。在这种情况下,以下是论文:


1
我不知道所有这些参考。他们非常好-谢谢。
Frank Harrell 2014年

@FrankHarrell:非常欢迎!很高兴我能帮上忙。
Aleksandr Blekh

1

交叉验证结果还用于确定LSI空间的最佳尺寸数。太少的维度没有利用数据的预测能力;而尺寸过多会导致过拟合。图4显示了具有不同数量LSI尺寸的模型的平均误差分布。具有四维LSI空间的模型产生的平均错误数最少,而错误的中值数也最少,因此最终模型是使用四维LSI空间构建的。

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

如果您不是ieee成员,我可以发布副本。

这是我在本科生写的一篇论文。我遇到一个问题,需要决定在逻辑回归模型中使用多少维(潜在语义索引类似于PCA)。我所做的就是选择一个指标(即,使用标记概率为.5时的错误率),并查看了在不同数量的维度上训练的不同模型的错误率分布。然后,我选择了错误率最低的模型。您可以使用其他指标,例如ROC曲线下的面积。

您还可以使用逐步回归之类的方法为您选择尺寸数。您具体执行哪种类型的回归?

稀疏顺便说一句是什么意思?


稀疏PC是例如L1(套索)惩罚的PCA。在普通PCA中,我们通常可以按解释的变化顺序输入术语。对于稀疏的PCA,事情会变得更加不稳定,因此选择起来可能会更加困难。
Frank Harrell 2014年

问题是特别为约稀疏主成分,并且这个答案(好,因为它是)不解决这个根本,所以-1。
变形虫

逐步回归基于与 ÿ除非包含特殊惩罚功能,否则将导致过度拟合。
Frank Harrell 2014年

@FrankHarrell可能会发生,但如果使用AIC而不是R-squared则不太可能发生
Andrew Cassidy 2014年

@amoeba我很困惑……不,我没有解决主要评论的“稀疏”部分,但是您提出了完全相同的建议,以便在评论中使用交叉验证?
Andrew Cassidy 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.