我想对将近100万个具有200个维度的向量进行降维doc2vec
。我使用TSNE
从执行sklearn.manifold
模块它和主要问题是时间复杂度。即使使用method = barnes_hut
,计算速度仍然很低。有时甚至耗尽了内存。
我正在具有130G RAM的48核处理器上运行它。是否有一种方法可以并行运行它或利用大量资源来加快此过程。
您是否尝试过在Spark等框架中进行地图缩减?
—
Dawny33
不,..它是如何工作的,你能指导我吗?
—
yazhi 2016年
—
仔细
是Spark的Scala。如果您想要python实现,则可以翻译它;Spark也在python上运行。
—
Emre '02