为了选择零件数量,有什么好的指标可以评估PCA配合的质量?


10

评估主成分分析(PCA)质量的良好指标是什么?

我在数据集上执行了该算法。我的目标是减少功能数量(信息非常冗余)。我知道保留的方差百分比可以很好地表明我们保留了多少信息,是否可以使用其他信息指标来确保我删除了冗余信息并且没有“丢失”此类信息?


3
严格来说,没有“冗余”信息,除非您的初始数据是完全共线的。人们通常会看到保留了方差的百分比(“我们使用了前五个主要成分,占方差的90%”)。我对寻找替代品感兴趣。
Stephan Kolassa 2014年

由于您的标签之一是信息理论:评估PCA是否有效的一种间接方法是检查假设,即信息理论告诉我们在给定的尺寸缩减下信息损失低。维基说,当您的数据是高斯信号加高斯噪声的总和时,情况就是这样。en.wikipedia.org/wiki/...
CloseToC

Answers:


17

我认为这个问题的一部分是除累积百分比差异(CPV)和类似的卵石图方法外是否还存在其他指标。答案是肯定的

关于某些选项的一篇出色论文是Valle 1999:

它涵盖了CPV,还涉及了并行分析,交叉验证,重构误差的方差(VRE),基于信息标准的方法等等。在比较和使用VRE之后,您可能会按照本文的建议进行操作,但是根据PRESS进行的交叉验证在我的经验中也很有效,并且他们也获得了不错的结果。以我的经验,CPV既方便又轻松,并且做得不错,但是这两种方法通常更好。

如果您进一步了解数据,还有其他方法可以评估PCA模型的性能。一种方法是将估计的PCA负载与真实的PCA负载进行比较(如果您知道的话)(在仿真中会这样)。这可以通过计算估计载荷与真实载荷的偏差来完成。您的偏见越大,您的模型就越糟糕。有关如何执行此操作的信息,您可以查看本文中他们使用这种方法比较方法的地方。但是,在您不知道真正的PCA负载的情况下,它在实际数据情况下不可用。这说明您删除了多少个组件,而不是由于外部观测值的影响而导致的模型偏差,但这仍然可以作为模型质量指标。



3

也有基于信息理论标准的措施,例如

Rissanen的MDL(及其变体)


@user:45382是的,那是另一个。Zhubarb链接到的论文中也有涉及。
Deathkill14 2014年

@ Deathkill14正确我读了这篇论文,提到了信息理论方法(实际上是不错的选择)
Nikos M.

关于MDL,MML和贝叶斯主义的出色理论论文:Vitany&Li,理想MDL及其与贝叶斯主义的关系citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580。其他模型选择方法(例如AIC和BIC)也是MDL的有效实现。
ggll
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.