我将数千个一阶马尔可夫链的数据集聚为大约10个聚类。
有什么推荐的方法可以评估这些集群,并找出集群中的项目共享以及它们与其他集群有何不同?因此,我可以这样说:“集群A中的进程一旦到达状态,往往会保持在状态Y,而其他集群中的进程则不是如此。”
这些马尔可夫链的过渡矩阵太大,以至于无法“看得见”。如果可以的话,它们相对稀疏。
我的想法是将所有过渡矩阵汇总为一个簇,对其求和并将其绘制为图片中的强度(从0到255的比例)。还有什么我应该尝试的“专业”吗?
您是否知道这些流程是一阶市场链(如果是,那么如何)?假设对此的回答是肯定的,那么您还知道关于该结构的哪些其他先验信息?我试图确定您为什么首先对集群感兴趣;我怀疑知道这将有助于我们的读者更有效地指导您找到解决方案。
—
主教
原始数据是由我的网站上的用户生成的点击流。我创建了markov流程,因此每个流程都将描述一个用户的点击流。我知道有一些书籍和论文说markov链不足以解决这个问题,但是我的数据并不包括用户请求的确切URL,而只是URL所属的“应用程序”。(我的网站是一个信息系统,分为105个所谓的“应用程序”,它们大多是网站的独立部分,通过主页和每个页面上的侧菜单链接在一起)
—
user7610 2012年
我对集群感兴趣,因为我想揭示使用该网站具有相似模式的用户组。我假设马尔可夫链捕获的模式足以区分这些群体。我检查了我创建的集群如何与用户在站点上拥有的角色相对应,它总是看起来像一个集群中有很多用户来自一个角色,而只有几个角色来自其他角色,因此看起来很有希望。希望对您
—
有所
嗨,我遇到了同样的问题。最后,您是如何解决问题的?
—
2014年
@nan我没有,我只是在一个学期项目中需要这个,所以我只是做了其他事情。如果必须立即解决,请尝试查看en.wikipedia.org/wiki/…进行初始聚类。如今,t-SNE非常受欢迎,并且适合IMO。我希望我得到的结果会比我通过即席方法获得的结果更有意义。并且使用相对较新的超级酷的东西会让老师满意;)
—
user7610