低轮廓宽度是否意味着数据几乎没有底层结构?


10

我是序列分析的新手,我想知道如果基于最优匹配的不相似矩阵的聚类分析的平均轮廓宽度(ASW)低(约25),您将如何应对?可以得出这样的结论:似乎几乎没有底层结构可以使序列聚类,这似乎很合适吗?您是否可能会忽略基于群集质量其他度量的较低的ASW(我在下面粘贴了一些内容)?还是在序列分析或后续聚类分析过程中做出的选择可能是造成低ASW数量的原因?

任何建议,将不胜感激。谢谢。

如果需要更多上下文:

我正在研究20多岁之间的624个工时不匹配序列(即,一个人喜欢在一周内工作的小时数与他们实际工作的小时数之间的不匹配)。我正在检查的所有序列的长度都为10。我的序列对象具有五个状态(M =想要更多的小时,S =想要相同的小时,F =想要更少的小时,O =劳动力不足,U =失业) )。

我没有对ASW结果如何随方法的不同组合而变化进行系统的说明。尽管如此,我还是尝试了中低indel成本(最大替代成本的.1和.6,我更关心事件的顺序,而不是它们的时间安排)和不同的聚类过程(病房,平均数和pam)。我的总体印象是ASW数量仍然很低。

较低的ASW结果可能是有道理的。我希望这些状态以各种不同的顺序出现,并且这些状态可以重复。删除重复的观测值只会将N从624降低到536。研究数据表明,确实存在很多变化和顺序,我认为这非常不同,例如,人们一直想要相同的时间,出现了不匹配的情况,解决了失配,并且在有失配与没有失配之间来回摆动。也许缺少清晰区分的集群与缺少有趣的变化不是一回事。但是,较弱的聚类结果似乎使我无法很好地总结序列。

Ward方法的结果,插入缺失设置为0.1的替代成本为2。这些统计数据似乎表明6聚类解决方案可能很好。但是,ASW很低-至少对于群集数量合理的解决方案(2或3太少)。

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

Answers:


11

ASW是衡量聚类解决方案一致性的一种方法。较高的ASW值表示群集是同质的(所有观测值都靠近群集中心),并且它们之间的分隔良好。根据Kaufmann和Rousseuw(1990),低于0.25的值表示数据没有结构化。在0.25到0.5之间,数据可能是结构化的,但也可能是一种技巧。请记住,这些值是指示性的,不应用作决策阈值。这些值在理论上没有定义(不是基于某些p值),而是基于作者的经验。因此,根据这些较低的ASW值,您的数据似乎是非常无组织的。如果聚类分析的目的仅是描述性的,那么您可以说它揭示了一些(但只有一些)最明显的模式。然而,

您也可以尝试查看“每个群集”的ASW值(这由函数给出wcClusterQuality)。也许您的某些群集定义良好,而某些群集可能是“虚假的”(ASW <0),从而导致总体ASW值较低。

您可以尝试使用引导策略,这将给您一个更好的提示。在R中,clusterboot软件包中的功能fpc可用于此目的(请参阅帮助页面)。但是,它不适用于加权数据。如果您的数据未加权,我认为值得尝试一下。

最后,您可能需要仔细查看数据和分类。也许您的类别太不稳定或定义不明确。但是,这里似乎并非如此。

正如您已经说过的那样,“缺少清晰区分的群集与缺少有趣的变化是不一样的”。还有其他分析序列变异性的方法,例如差异分析。这些方法使您可以研究序列与解释因素之间的联系。例如,您可以尝试构建序列回归树(软件包TraMineR中的“ seqtree”函数)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.