评估一阶马尔可夫链的聚类


10

我将数千个一阶马尔可夫链的数据集聚为大约10个聚类。

有什么推荐的方法可以评估这些集群,并找出集群中的项目共享以及它们与其他集群有何不同?因此,我可以这样说:“集群A中的进程一旦到达状态,往往会保持在状态Y,而其他集群中的进程则不是如此。”

这些马尔可夫链的过渡矩阵太大,以至于无法“看得见”。如果可以的话,它们相对稀疏。

我的想法是将所有过渡矩阵汇总为一个簇,对其求和并将其绘制为图片中的强度(从0到255的比例)。还有什么我应该尝试的“专业”吗?


您是否知道这些流程是一阶市场链(如果是,那么如何)?假设对此的回答是肯定的,那么您还知道关于该结构的哪些其他先验信息?我试图确定您为什么首先对集群感兴趣;我怀疑知道这将有助于我们的读者更有效地指导您找到解决方案。
主教

原始数据是由我的网站上的用户生成的点击流。我创建了markov流程,因此每个流程都将描述一个用户的点击流。我知道有一些书籍和论文说markov链不足以解决这个问题,但是我的数据并不包括用户请求的确切URL,而只是URL所属的“应用程序”。(我的网站是一个信息系统,分为105个所谓的“应用程序”,它们大多是网站的独立部分,通过主页和每个页面上的侧菜单链接在一起)
user7610 2012年

我对集群感兴趣,因为我想揭示使用该网站具有相似模式的用户组。我假设马尔可夫链捕获的模式足以区分这些群体。我检查了我创建的集群如何与用户在站点上拥有的角色相对应,它总是看起来像一个集群中有很多用户来自一个角色,而只有几个角色来自其他角色,因此看起来很有希望。希望对您
有所

嗨,我遇到了同样的问题。最后,您是如何解决问题的?
2014年

@nan我没有,我只是在一个学期项目中需要这个,所以我只是做了其他事情。如果必须立即解决,请尝试查看en.wikipedia.org/wiki/…进行初始聚类。如今,t-SNE非常受欢迎,并且适合IMO。我希望我得到的结果会比我通过即席方法获得的结果更有意义。并且使用相对较新的超级酷的东西会让老师满意;)
user7610

Answers:


1

为了说明每个群集的稳态行为,您可以通过特征向量计算每个过渡矩阵的稳态分布,然后按群集比较箱形图。如果不先进行某种平滑处理,可能会在稳态计算中遇到问题。

您如何对转换矩阵进行聚类?如果是我,我将对每行应用加法平滑,然后对每行进行居中对数比变换,然后对矩阵进行展平。

如果使用K-均值或变体进行聚类,则可以分析归一化的聚类中心。或者只是从每个聚类中选择一些观察值并进行分析。


0

首先,要了解一下,您的尺寸为105 x 105的矩阵是否与您提到的应用程序相对应?当您说“保持状态Y”时,是否表示坚持申请Y?

然后,我认为诸如“集群A中的进程一旦到达状态就倾向于保持在状态Y,而对于其他集群中的进程则不是如此”这样的结果对于10个集群来说太细粒度了。您是否尝试过对应用程序域进行集群化-如果我理解正确,您可以根据用户行为对105个应用程序进行集群化。接下来,您是否查看了用户的简单存在而不是过渡,即查看了105个应用程序中的用户资料?听起来好像您可以在用户配置文件之间使用皮尔森系数。在应用程序群集上或在应用程序本身上。也许可以将其扩展到应用程序之间的转换,但是目前我感到集群数量和您感兴趣的结果类型之间存在巨大的不匹配。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.