Answers:
一种方法是使用Gower相似系数,它是一个综合量度1;它需要定量(如等级量表),二进制(如当前/缺席)和名义(如工人/教师/文员)变量。后来Podani 2添加了一个选项,也可以采用序数变量。
即使没有公式,该系数也很容易理解。您可以通过考虑变量的类型,然后通过对所有变量求平均值,来计算每个变量在个体之间的相似度值。通常,计算Gower的程序将允许您加权变量,即变量对复合公式的贡献。但是,对不同类型的变量进行适当的加权是一个问题,没有明确的指导方针,这会使高尔或其他接近度指数的“综合”指数面临挑战。
高尔相似度()的方面:
(很容易扩展类型列表。例如,可以使用转换为相似性的标准化卡方距离为计数变量添加一个求和。)
系数范围为0到1。
“ 高尔距离 ”。不存在序数变量(即不使用Podani选项)表现为欧几里德距离,它完全支持欧几里德空间。但是仅是度量(支持三角不等式),不是欧几里得。存在序数变量(使用Podani选项)仅是度量标准,不是欧几里得;和是不是在所有度量。另请参阅。
利用欧几里得距离(支持欧几里德空间的距离),几乎任何经典的聚类技术都可以做到。包括K均值(当然,如果您的K均值程序可以处理距离矩阵),还包括Ward's,质心,分层聚类的。试探性地允许使用K-means或其他基于欧几里德距离和非欧几里德公制距离的方法。对于非公制距离,不得使用此类方法。
上一段讨论了在数学上(几何上)使用高尔距离,K均值或Ward或此类聚类是否合法。从测量范围(“心理”)的角度来看,不应在任何分类(名义,二进制和有序)数据中计算均值或欧氏距离偏差;因此,从这种立场出发,您可能无法通过K均值,沃德等方法处理高尔系数。这种观点警告说,即使存在欧几里得空间,它也可能是颗粒状的,而不是光滑的(请参阅参考资料)。
如果您偶然发现了这个问题,并且想知道要下载哪个软件包以在R中使用Gower度量标准,则该cluster
软件包具有一个名为daisy()的函数,默认情况下,只要使用了混合类型的变量,该函数就默认使用Gower度量标准。或者,您可以手动将其设置为使用高尔度量。
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
。