Answers:
本文解决了这个问题:
Bradley,PS,KP Bennett和Ayhan Demiriz。“约束k均值聚类。” Microsoft Research,Redmond(2000):1-8。
我在python中实现了该算法。
rPython
R中的包为我从R脚本访问的该实现创建接口。
我认为这只是将k均值作为if循环的一部分进行测试的问题,它测试了簇的大小,即簇k中的Count n-还请记住,对于相同数据的每次运行,k均值将给出不同的结果,因此您可能应该将其作为循环的一部分来运行,以提取“最佳”结果
您的数据集有多大?也许您可以尝试运行分层聚类,然后根据树状图确定保留哪些聚类。
如果您的数据集很大,则还可以结合使用两种聚类方法:初始的非层次聚类,然后使用非层次分析中的组进行层次聚类。您可以在Martínez-Pastor等人(2005)中找到这种方法的示例。