我正在使用R进行文本分类任务,并获得了文档项矩阵,其大小为22490 x 120,000(只有400万个非零条目,少于1%的条目)。现在,我想通过使用PCA(主成分分析)来减少尺寸。不幸的是,R无法处理这个庞大的矩阵,因此我将这个稀疏矩阵存储在“矩阵市场格式”的文件中,希望使用其他技术来进行PCA。
因此,任何人都可以给我一些有用的库(无论使用哪种编程语言)的提示,这些库可以轻松地使用此大规模矩阵进行PCA,或者由我自己进行长期的PCA,换句话说,首先要计算协方差矩阵,然后然后计算协方差矩阵的特征值和特征向量。
我想要的是计算所有PC(120,000),并仅选择占90%方差的前N个PC。显然,在这种情况下,我必须给先验阈值以将一些非常小的方差值设置为0(在协方差矩阵中),否则,协方差矩阵将不会稀疏,其大小将为120,000 x 120,000,即一台机器无法处理。同样,载荷(特征向量)将非常大,应以稀疏格式存储。
非常感谢您的帮助!
注意:我使用的机器具有24GB RAM和8个CPU内核。