主成分分析(PCA)的经典方法是在输入数据矩阵上进行,列的均值为零(然后PCA可以“最大化方差”)。通过将列居中可以轻松实现。但是,当输入矩阵稀疏时,居中的矩阵现在将变得稀疏,并且-如果矩阵很大,则不再适合内存。有针对存储问题的算法解决方案吗?
5
即使完整的数据矩阵不适合内存,也很可能是协方差或Gram矩阵适合内存。这些足以执行PCA。您正在考虑输入数据矩阵的大小是多少?另请参阅stats.stackexchange.com/questions/35185。
—
变形虫
@amoeba:我正在查看500K样本(行)和300K特征(列)
—
Roy
关于软件,Apache Spark的文件为spark.apache.org/docs/latest/…,以确保实现处理内存不足的数据
—
Tim