我正在寻找在一组10维点上进行k均值聚类的方法。问题是:有10 ^ 10分。
我只是在寻找最大群集的中心和大小(假设10到100个群集);我不在乎每个点最终会聚在什么簇上。专门使用k均值并不重要;我只是在寻找类似的效果,任何近似的k均值或相关算法都很好(minibatch-SGD表示,...)。由于GMM在某种意义上与k均值存在相同的问题,因此在相同大小的数据上执行GMM也很有趣。
在这种规模下,对数据进行二次采样可能不会显着改变结果:使用第1/10000个数据样本查找相同的前10个聚类的几率非常高。但是即使那样,这仍然是一个10 ^ 6的问题,超出了易处理的范围。