在聚类分析中为变量分配权重


12

我想在聚类分析中为变量分配不同的权重,但是我的程序(Stata)似乎对此没有选择,所以我需要手动进行操作。

想象一下4个变量A,B,C,D。这些变量的权重应为

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

我想知道以下两种方法之一是否真的可以解决问题:

  1. 首先,我将所有变量标准化(例如,按其范围)。然后,我将每个标准化变量与其权重相乘。然后进行聚类分析。
  2. 我将所有变量与其权重相乘,然后对其进行标准化。然后进行聚类分析。

还是两个想法都是完全废话?

[编辑] 我希望使用的聚类算法(我尝试了3种不同的算法)是k均值,加权平均链接和平均链接。我计划使用加权平均链接来确定大量簇,然后将它们插入k均值。


1
两种方法通常都不正确。变量值的乘积不等于加权变量对聚类的重要性。如果程序没有加权选项,则有时可以根据需要对数据进行加权处理-但这取决于群集的确切性质。因此,(在您的问题中)描述集群的细节:您将使用哪种算法和方法。
ttnphns

2
请注意,权重变量的最简单,通用的方法(权重是整数或可以使整数)将简单地传播变量乘以那些权重。在您的示例中,您的集群中可以使用50 As,25 B,10 C,15D。
ttnphns

8
或者,也可以选择:如果您使用基于欧几里德测度的聚类或使用k均值,则将每个变量乘以其权重的平方根。当然,应该在群集之前可能要进行的任何预处理(例如标准化)之后进行此乘法。
ttnphns

Answers:


7

为变量分配权重的一种方法是更改​​其比例。该技巧适用于您提到的聚类算法,即。k均值,加权平均链接和平均链接。

考夫曼,伦纳德和彼得·鲁西约(Peter J.Rousseeuw)。“ 在数据中查找组:聚类分析简介。” (2005)-第11页:

选择测量单位会增加变量的相对权重。以较小的单位表达变量将导致该变量的范围更大,这将对所得结构产生较大影响。另一方面,通过标准化一次尝试赋予所有变量相等的权重,以期达到客观性。这样,它可以由不具备先验知识的从业人员使用。然而,很可能某些变量在特定应用中本质上比其他变量更重要,然后权重的分配应基于主题知识(例如,参见Abrahamowicz,1985)。

另一方面,已经尝试设计与变量规模无关的聚类技术(Friedman和Rubin,1967)。Hardy and Rasson(1982)的建议是寻找一种分区,以最大程度地减少群集凸包的总体积。原则上,这种方法相对于数据的线性变换是不变的,但是不幸的是,不存在用于其实现的算法(除了限于二维的近似值之外)。因此,标准化的困境目前看来是不可避免的,本书中描述的程序由用户自行选择。

Abrahamowicz,M.(1985),《使用非数字pnon信息测量差异性》,在7月2日至5日在英国剑桥举行的第四次欧洲心理测量学会和船级社会议上发表的论文。

Friedman,HP和Rubin,J.(1967),关于分组数据的一些不变标准。J.阿米尔。统计员。ASSOC6,2,1159-1178。

Hardy,A.和Rasson,JP(1982),《自动分类法》,统计学家。肛门 Donnies,7岁,41-56。


1
您的第一个参考书以某种方式被修改:Leonard Kaufman和Peter J. Rousseeuw是您链接到的书的作者。
Nick Cox 2013年

噢,谢谢你指出这一点...我被Lavoisier搞砸了,这在他们的页面 “ Auteurs:SEWELL Grandville,ROUSSEEUW Peter J.” 上犯了一个错误,而这反过来又使我用来获取参考的Gscholar搞砸了。
Franck Dernoncourt

感谢@FranckDernoncourt!如果变量的比例(从而确定范围)决定了其权重,那么在我最初提出的问题中,方法1是否会是正确的解决方案?
SPi

2
是的,方法1是正确的方法,并且与考夫曼,伦纳德和彼得·鲁西约(Peter J. Rousseeuw)在答复中引用的段落中所说的相对应。方法2将无济于事,因为标准化消除了影响:)
Franck Dernoncourt 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.