Answers:
k均值最小化了集群内方差,该方差等于平方的欧几里得距离。
通常,算术平均值会这样做。它不是优化的距离,但是从平均偏差平方。
k中值使绝对偏差最小化,该绝对偏差等于曼哈顿距离。
通常,每轴中位数应执行此操作。如果您想最小化绝对偏差之和(即sum_i abs(x_i-y_i)),而不是平方值,则它是均值的理想估计。
这不是准确性的问题。这是正确性的问题。;-)
因此,这是您的决策树:
一些例外:据我所知,最大化余弦相似度与最小化L2标准化数据的欧几里德距离平方有关。因此,如果您的数据是L2规范化的;然后在每次迭代中对平均值进行l2归一化,然后可以再次使用k-means。
如果您要进行分析而不是考虑极值的可能影响,请使用k均值,但如果要更准确地使用k中值