连续聚类


9

因此,在与实时连续流数据进行群集方面,我面临一个问题。由于我拥有不断增长的数据集,因此我不确定哪种是运行高效集群的最佳方法。我提出了一些可能的解决方案,包括:

  1. 设置允许的数据点数限制,这样就可以在最早的数据点到达另一个数据点时就达到限制。从本质上讲,这表明较旧的数据与我们之间的关联性不再足够,无法通过丢弃这些数据来照顾我们丢失的内容。

  2. 一旦有足够的数据来进行良好的聚类,请考虑这种“设置”,并随着新点的出现,而不是重新聚类所有数据,而只是找出新点最靠近哪个聚类中心并将其添加到该聚类中心。这样做的好处是,您可以不必在每个新点上重新进行聚类,并且不必考虑聚类“足够好”而只存储聚类中心的所有其他点。不利的一面是从头开始使用所有数据点重新运行该算法可能会更准确。

虽然这些是我脑力激荡的一些潜在解决方案,但我想知道是否有更好的已知技术来解决此问题。我认为像Google这样的网站必须以某种方式处理它(我希望“添加更多的ram,服务器和处理器”或“不断扩展数据中心”不是唯一可用的答案)。

Answers:



9

关于流聚类,有很多工作(与在线方法稍有不同,但实际上是您想要的)。Guha等人的上述参考是非常好的参考,并且对于哪种技术有效以及过去使用了哪些方法(启发式和精确)的更一般的观点,您可能想看看我的调查关于在流上聚类



4

我喜欢上面的Suresh的调查,并总结了流聚类中的不同方法。您没有要求这样做,但是在某些情况下,问题可能是分布式服务器可以看到连续的数据,必须在中心保持群集,而不必移动大量数据。看这里


欢迎,穆图!
Suresh Venkat 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.