为KNN选择最佳K


15

我执行了5倍CV选择KNN的最佳K。似乎K越大,误差越小...

在此处输入图片说明

抱歉,我没有图例,但不同的颜色代表不同的尝试。总共有5个,似乎它们之间几乎没有差异。当K变大时,误差似乎总是会减小。那么如何选择最佳K?在这里K = 3会是一个很好的选择,因为在K = 3之后图形会趋于平稳吗?


找到集群后,您将如何处理它们?归根结底,这就是您要对由聚类算法生成的聚类进行处理,这将有助于确定是否值得使用更多聚类来获得较小的错误。
Brian Borchers 2014年

我想要高预测力。在这种情况下...我应该用K = 20吗?由于它具有最低的错误。但是,我实际上绘制了K的误差,误差最大为100。而100的误差是所有误差中最低的...所以我怀疑误差会随着K的增加而减小。但是我不知道什么是一个很好的起点。
阿德里安

Answers:


12

ķķķķķ 如果CV误差的差异可忽略不计,则可以选择比较小的产品。

如果CV错误没有再次开始增加,则可能意味着属性没有信息(至少对于该距离度量而言),并且提供恒定的输出是它可以做到的最好。



0

簇的数目背后有物理或自然的意义吗?如果我没记错的话,自然会随着K的增加,误差减小-有点像过拟合。与其寻找最佳K,不如根据领域知识或某些直觉来选择K,可能更好些?


我认为这个答案更适合于k-均值聚类,而不是k-nn分类或回归。
迪克兰有袋博物馆,2014年

如果k太大,则说明拟合不足,那么误差将再次上升。
詹姆斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.