我找到了Jenks Natural Breaks算法的这个Python实现,可以使其在Windows 7计算机上运行。考虑到我的地理数据的大小,它非常快并且可以在很短的时间内找到中断点。在将这种聚类算法用于数据之前,我使用的是(此处)算法。我使用KMeans遇到的问题是找到最佳K值参数,但是我“解决”了它,针对不同的K值启动了算法,并使用(此处)找到了最佳K。sklearn.clustering.KMeans
sklearn.metrics.silhouette_score
我的问题是:如果我告诉Natural Breaks算法找到5个类(即K),那么如何确定这是最匹配我的数据的类数?如何验证我选择了最佳的休息时间?
谢谢!
为了客观地确定“最佳”的含义,您能解释一下类“匹配”数据的含义吗?(或者,实际上,您将如何量化任何程度的不匹配。)
—
糟糕
将剪影与Jenks一起使用应该等同于与kmeans一起使用。这是一种试探法,您不应盲目地相信它。恕我直言,最好的办法是可视化您的结果。
—
已退出–Anony-Mousse 2015年
Whuber:最好,使用Silhouette,根据sklearn网站上的定义:scikit-learn.org/stable/modules/generated/,使该索引接近1的类的数量 。Anony-Mousse:我无法想象20多个变量,为此准备地图,并期望我的大脑不会弄乱课程的数量。我需要依靠一个索引说:“对于变量X,您可以做的最好的就是使用Y类”。此外,我需要重新运行几次分析,不幸的是,这种方法很慢……
—
iamgin 2015年
从jenks导入jenks:给出以下错误回溯(最近一次调用):文件“ <stdin>”,在<module>中的第1行,ImportError:无法导入名称jenks
—
user120982