我遇到了一个场景,其中我有10个人/人的10个信号(因此100个样本),其中包含需要传递给分类器的14000个数据点(维度)。我想减少此数据的维数,而PCA似乎是这样做的方法。但是,我仅能找到样本数量大于维数的PCA示例。我正在使用PCA应用程序,该应用程序使用SVD查找PC。当我将其传递给我的100x14000数据集时,返回了101台PC,因此显然可以忽略绝大多数尺寸。该程序表明前6台PC包含90%的方差。
是否合理地假设这101台PC基本上包含所有差异并且其余尺寸可以忽略不计?
我读过的一篇论文声称,使用与我自己的数据集相似的(尽管质量略低)数据集,他们能够将4500尺寸缩减到80,从而保留了96%的原始信息。论文挥舞着使用的PCA技术的细节,只有3100个样本可用,我有理由相信比实际用于PCA的样本更少(以消除分类阶段的偏差)。
我是否缺少某些东西,或者这真的是PCA与高维,低样本量数据集结合使用的方式吗?任何反馈将不胜感激。