我有一个数据库表,用于不同节点之间的数据传输。这是一个巨大的数据库(具有近4000万次传输)。属性之一是传输的字节数(nbytes),范围从0字节到2 TB。我想对nbytes进行聚类,以便在给定k个聚类的情况下,某些x1传输属于k1聚类,而x2转移器则属于k2等。
从我使用的术语来看,您可能已经猜到了我要做什么:K-均值。这是一维数据,因为nbytes是我唯一关心的功能。当我寻找与此不同的方法时,我看到EM连同非集群方法一起被提及了两次。我想了解您对如何解决此问题的看法(特别是是否要群集)。
谢谢!