我有17个数字变量和5个二进制(0-1)变量,数据集中有73个样本。我需要进行聚类分析。我知道,高尔距离对于具有混合变量的数据集是一个很好的指标。但是,我无法理解高尔距离如何计算二进制变量之间的差。在我看来,它与欧几里得距离没有什么不同。
您的问题不太清楚。您是否只是在问“高尔距离如何计算二进制变量之间的差”?“没有什么比欧几里得不同”的意思了?
—
gung-恢复莫妮卡
谢谢。抱歉,我问高尔如何计算二进制变量之间的差。我的意思是,我无法理解两者之间的差异。欧几里得和高尔的二元变量。
—
EmrahBilgiç14年
您在此网站上搜索过
—
ttnphns 2014年
Gower
吗?stats.stackexchange.com/a/15313/3277
是的,我做到了。如果两个样本的值相同,则欧氏距离为0,否则为1。那高尔呢?
—
EmrahBilgiç14年
@EmrahBilgiç,高尔度量标准是相似性,而不是距离。当从1中减去时,它变成“距离”。在上面的链接下阅读其如何处理二进制数据。
—
ttnphns 2014年