2
大型数据集的有效降维
我有一个具有〜1M行和〜500K稀疏特征的数据集。我想将维数减少到1K-5K密集特征的数量级。 sklearn.decomposition.PCA在稀疏数据上不起作用,我已经尝试过使用,sklearn.decomposition.TruncatedSVD但是很快就会遇到内存错误。在这种规模的有效尺寸缩减方面,我有哪些选择?
Scikit-learn是一个Python模块,包含用于机器学习,数据挖掘和数据分析的简单有效的工具。它基于NumPy,SciPy和matplotlib构建。它根据3条款BSD许可进行分发。