3
在R中对大数据进行聚类并且与采样相关吗?
我是数据科学的新手,在查找R中具有200,000行和50列的数据集中的聚类时遇到问题。 由于数据同时具有数字变量和名义变量,因此使用Euclidean距离度量的K-means之类的方法似乎不是合适的选择。因此,我转向接受距离矩阵作为输入的PAM,agnes和hclust。 菊花方法可以处理混合类型的数据,但距离矩阵太大:200,000乘以200,000,比2 ^ 31-1(R 3.0.0之前的向量长度限制)大得多。 昨天发布的新R 3.0.0支持长度大于2 ^ 31-1的长向量。但是200,000 x 200,000的双矩阵需要大于16Gb的连续RAM,这在我的机器上是不可能的。 我读过有关并行计算和bigmemory包的信息,但不确定它们是否对您有帮助:如果我使用的是雏菊,它将生成一个大矩阵,该矩阵无论如何都无法容纳在内存中。 我还阅读了有关采样的文章: 采样与“大数据”时代相关吗? 因此,就我而言,对数据集使用抽样,对样本进行聚类然后推断整个数据集的结构是否相关? 你能给我一些建议吗?谢谢! 关于我的机器: R版本3.0.0(2013-04-03) 平台:x86_64-w64-mingw32 / x64(64位) 操作系统:Windows 7 64bit 内存:16.0GB