我正在使用层次聚类分析时间序列数据。我的代码是使用Mathematica实现的函数DirectAgglomerate[...]
,该函数根据以下输入生成层次聚类:
距离矩阵D
用于确定集群间链接的方法的名称。
我已经使用曼哈顿距离计算了距离矩阵D:
其中和Ñ ≈ 150是数据点在我的时间序列数。
我的问题是,可以将Ward的集群间链接与曼哈顿距离矩阵一起使用吗?一些资料表明,沃德的连接只能与欧几里得距离一起使用。
请注意,DirectAgglomerate[...]
仅使用距离矩阵而不是原始观测值来计算Ward的链接。不幸的是,我不确定Mathematica是如何修改Ward的原始算法的(根据我的理解),该算法通过最小化相对于聚类均值计算的观测值平方误差之和而起作用。例如,对于由单变量观测值向量组成的聚类,Ward将平方的误差平方和表示为:
(其他软件工具(例如Matlab和R)也仅使用距离矩阵来实现Ward的聚类,因此问题并非特定于Mathematica。)