考虑到特征数量恒定,Barnes-Hut t-SNE的复杂度为,随机投影和PCA的复杂度为使它们对于非常大的数据集“负担得起”。O (n )
另一方面,依赖多维缩放的方法具有复杂度。
是否存在其他复杂度低于降维技术(除了琐碎的降维技术,例如,看前列?O (n log n )
考虑到特征数量恒定,Barnes-Hut t-SNE的复杂度为,随机投影和PCA的复杂度为使它们对于非常大的数据集“负担得起”。O (n )
另一方面,依赖多维缩放的方法具有复杂度。
是否存在其他复杂度低于降维技术(除了琐碎的降维技术,例如,看前列?O (n log n )
Answers:
一个有趣的选择是探索基于神经的降维。可以以为代价来训练最常用的降维网络类型,即自动编码器,其中表示训练迭代(是与训练数据无关的超参数) 。因此,训练复杂度简化为。我Ô(Ñ )
您可以首先看一下Hinton和Salakhutdinov [1]在2006年的研讨会上所做的工作。从那时起,事情发展了很多。现在,大多数关注是通过变分自动编码器实现的[2],但基本思想(在其输出层之间通过瓶颈层重构输入的网络)仍然相同。请注意,与PCA和RP相比,自动编码器执行非线性降维。而且,与t-SNE相比,自动编码器可以转换看不见的样本,而无需重新训练整个模型。
在实用方面,我建议您看一下这篇文章,其中提供了有关如何使用奇妙的Keras库实现不同类型的自动编码器的详细信息。
[1] Hinton,GE和Salakhutdinov,RR(2006)。使用神经网络降低数据的维数。科学313(5786),504-507。
[2] Kingma,DP,和Welling,M.(2013)。自动编码可变贝叶斯。arXiv预印本arXiv:1312.6114。
除了已经提到的自动编码器之外,还可以尝试使用随机投影或随机子空间方法来利用Johnson-Lindenstrauss的引理。随机投影为,其中为维度的样本数,为目标维度,参见[1]。N d k
进行一些谷歌搜索会为您提供一些最新的结果,尤其是对于稀疏数据集。
[1] 降维中的随机投影:图像和文本数据的应用。