为变量分配权重的一种方法是更改其比例。该技巧适用于您提到的聚类算法,即。k均值,加权平均链接和平均链接。
考夫曼,伦纳德和彼得·鲁西约(Peter J.Rousseeuw)。“ 在数据中查找组:聚类分析简介。” (2005)-第11页:
选择测量单位会增加变量的相对权重。以较小的单位表达变量将导致该变量的范围更大,这将对所得结构产生较大影响。另一方面,通过标准化一次尝试赋予所有变量相等的权重,以期达到客观性。这样,它可以由不具备先验知识的从业人员使用。然而,很可能某些变量在特定应用中本质上比其他变量更重要,然后权重的分配应基于主题知识(例如,参见Abrahamowicz,1985)。
另一方面,已经尝试设计与变量规模无关的聚类技术(Friedman和Rubin,1967)。Hardy and Rasson(1982)的建议是寻找一种分区,以最大程度地减少群集凸包的总体积。原则上,这种方法相对于数据的线性变换是不变的,但是不幸的是,不存在用于其实现的算法(除了限于二维的近似值之外)。因此,标准化的困境目前看来是不可避免的,本书中描述的程序由用户自行选择。
Abrahamowicz,M.(1985),《使用非数字pnon信息测量差异性》,在7月2日至5日在英国剑桥举行的第四次欧洲心理测量学会和船级社会议上发表的论文。
Friedman,HP和Rubin,J.(1967),关于分组数据的一些不变标准。J.阿米尔。统计员。ASSOC6,2,1159-1178。
Hardy,A.和Rasson,JP(1982),《自动分类法》,统计学家。肛门 Donnies,7岁,41-56。