让我向您展示一个假设的在线集群应用程序的示例:
在时间n,点1,2,3,4被分配给蓝色群集A,点b,5,6,7被分配给红色群集B。
在时间n + 1,引入了新的点a,该点被分配给蓝色聚类A,但也导致点b也被分配给蓝色聚类A。
最后,点1,2,3,4,a,b属于A,点5,6,7属于B。对我来说,这似乎是合理的。
乍一看似乎很简单,实际上有点棘手-要跨时间步长维护标识符。让我尝试通过更多边界示例来阐明这一点:
绿点将导致两个蓝色和两个红色点合并为一个簇,我任意决定将其着色为蓝色-请注意,这已经是我在工作中的启发性思维!
做出此决定的计算机将必须使用规则。例如,当点合并到群集中时,群集的身份由多数决定。在这种情况下,我们将面临平局-蓝色和红色可能是新(此处为蓝色)群集的有效选择。
想象一下靠近绿色的第五个红色点。然后大多数将是红色(3红色vs 2蓝色),因此红色将是新群集的一个不错的选择-但这将与最右边群集的红色的更清晰选择相矛盾,因为那些群集是红色的,可能应该保持这种状态。
我觉得这很可疑。归根结底,我想这还没有完美的规则-启发式优化了某些稳定性标准。
这最终导致我的问题:
- 这个“问题”是否具有可以引用的名称?
- 是否有“标准”的解决方案,并...
- ...甚至可能有R包吗?