统计和大数据 traminer

低轮廓宽度是否意味着数据几乎没有底层结构？

我是序列分析的新手，我想知道如果基于最优匹配的不相似矩阵的聚类分析的平均轮廓宽度（ASW）低（约25），您将如何应对？可以得出这样的结论：似乎几乎没有底层结构可以使序列聚类，这似乎很合适吗？您是否可能会忽略基于群集质量其他度量的较低的ASW（我在下面粘贴了一些内容）？还是在序列分析或后续聚类分析过程中做出的选择可能是造成低ASW数量的原因？任何建议，将不胜感激。谢谢。如果需要更多上下文：我正在研究20多岁之间的624个工时不匹配序列（即，一个人喜欢在一周内工作的小时数与他们实际工作的小时数之间的不匹配）。我正在检查的所有序列的长度都为10。我的序列对象具有五个状态（M =想要更多的小时，S =想要相同的小时，F =想要更少的小时，O =劳动力不足，U =失业））。我没有对ASW结果如何随方法的不同组合而变化进行系统的说明。尽管如此，我还是尝试了中低indel成本（最大替代成本的.1和.6，我更关心事件的顺序，而不是它们的时间安排）和不同的聚类过程（病房，平均数和pam）。我的总体印象是ASW数量仍然很低。较低的ASW结果可能是有道理的。我希望这些状态以各种不同的顺序出现，并且这些状态可以重复。删除重复的观测值只会将N从624降低到536。研究数据表明，确实存在很多变化和顺序，我认为这非常不同，例如，人们一直想要相同的时间，出现了不匹配的情况，解决了失配，并且在有失配与没有失配之间来回摆动。也许缺少清晰区分的集群与缺少有趣的变化不是一回事。但是，较弱的聚类结果似乎使我无法很好地总结序列。 Ward方法的结果，插入缺失设置为0.1的替代成本为2。这些统计数据似乎表明6聚类解决方案可能很好。但是，ASW很低-至少对于群集数量合理的解决方案（2或3太少）。 PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14 cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17 cluster4 0.54 0.74 0.71 0.25 …

10 clustering traminer

Questions tagged «traminer»