连续在线集群识别的解决方案?
让我向您展示一个假设的在线集群应用程序的示例: 在时间n,点1,2,3,4被分配给蓝色群集A,点b,5,6,7被分配给红色群集B。 在时间n + 1,引入了新的点a,该点被分配给蓝色聚类A,但也导致点b也被分配给蓝色聚类A。 最后,点1,2,3,4,a,b属于A,点5,6,7属于B。对我来说,这似乎是合理的。 乍一看似乎很简单,实际上有点棘手-要跨时间步长维护标识符。让我尝试通过更多边界示例来阐明这一点: 绿点将导致两个蓝色和两个红色点合并为一个簇,我任意决定将其着色为蓝色-请注意,这已经是我在工作中的启发性思维! 做出此决定的计算机将必须使用规则。例如,当点合并到群集中时,群集的身份由多数决定。在这种情况下,我们将面临平局-蓝色和红色可能是新(此处为蓝色)群集的有效选择。 想象一下靠近绿色的第五个红色点。然后大多数将是红色(3红色vs 2蓝色),因此红色将是新群集的一个不错的选择-但这将与最右边群集的红色的更清晰选择相矛盾,因为那些群集是红色的,可能应该保持这种状态。 我觉得这很可疑。归根结底,我想这还没有完美的规则-启发式优化了某些稳定性标准。 这最终导致我的问题: 这个“问题”是否具有可以引用的名称? 是否有“标准”的解决方案,并... ...甚至可能有R包吗? 重复聚类中聚类身份的合理继承