具有大量功能(> 10K)的最佳PCA算法?
我之前在StackOverflow上问过这个问题,但由于它在SO上没有任何答案,因此似乎在这里更合适。这是统计和编程之间的交集。 我需要编写一些代码来进行PCA(主成分分析)。我浏览了众所周知的算法并实现了这一算法,据我所知,它等效于NIPALS算法。它可以很好地找到前2-3个主成分,但是收敛似乎很慢(大约数百到数千次迭代)。以下是我需要的详细信息: 当处理大量特征(10,000到20,000数量级)和数百个样本量的样本时,该算法必须高效。 它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现,因为目标语言是D,但尚不存在,即使有,我也不想将其作为对相关项目的依赖项添加。 附带说明一下,在同一个数据集上,R看起来非常快地找到了所有主成分,但是它使用了奇异值分解,这不是我想自己编写的东西。