双层集群入门


9

我一直在做一些关于bicluster的互联网研究。(我已经阅读了Wiki文章多次。)到目前为止,似乎没有什么定义或标准术语。

  1. 我想知道是否有任何对寻找二聚体算法感兴趣的标准论文或书籍。

  2. 是否可以说该领域的最新技术水平?我对使用遗传算法找到双聚类的想法很感兴趣,因此,尤其是在其他方法的背景下,我将对该方法的评论表示赞赏。

  3. 通常在群集中,目标是将数据集划分为组,其中每个元素都位于某个组中。bicluster算法是否还试图将所有元素放在一个特定的组中?

Answers:


16

我从来没有直接使用过它,所以我只能分享一些我曾发表过的论文以及对该技术的一般想法(主要解决您的问题1和3)。

我对双簇聚类的一般理解主要来自基因研究(2-6),我们试图解释基因簇和个体分组:总之,我们希望将共享相似基因表达谱的样本分组在一起(这可能与(例如疾病状态)有助于这种基因分析模式的基因。Pardalos的幻灯片Biclustering中提供了有关生物学“大规模”数据集的最新技术的概述。请注意,有一个R包biclust,可用于微阵列数据。

实际上,我最初的想法是将该方法应用于临床诊断,因为它允许将特征或变量放在一个以上的聚类中,这从符号学的角度来看是很有趣的,因为聚类在一起的症状可以定义综合症,但某些症状可以在不同疾病中重叠。可以在Cramer等人的《合并症:网络观点》中找到一个很好的讨论(Behavioral and Brain Sciences 2010,33,137-193)。

一种与之相关的技术是协作过滤。Su和Khoshgoftaar提供了很好的评论(人工智能的进展,2009年):协作过滤技术概述。其他参考文献在末尾列出。也许对频繁项目集的分析(例如在市场购物问题中得到证明)也与此相关,但是我从未对此进行调查。共聚的另一个例子是当我们想要同时聚类单词和文档时,例如在文本挖掘中,例如Dhillon(2001)。使用二部光谱图分区对文档和单词进行聚类程序 KDD,第269–274页。

关于一些一般参考,这不是一个非常详尽的列表,希望对您有用:

  1. in那教(2010)。数据聚类:距离K均值50年模式识别快报31,651-666
  2. Carmona-Saez等。(2006)。通过非光滑非负矩阵因子分解的基因表达数据的双聚类BMC生物信息学7,78。
  3. Prelic等。(2006)。基因表达数据双聚类方法的系统比较与评价生物信息学22(9),1122-1129。www.tik.ee.ethz.ch/sop/bimax
  4. DiMaggio等。(2008)。通过系统生物学中数据矩阵的最佳重新排序来建立集群:严格的方法和比较研究BMC生物信息学9,458。
  5. Santamaria等。(2008)。BicOverlapper:用于双星集群可视化的工具生物信息学24(9),1212-1213。
  6. Madeira,SC和Oliveira,AL(2004)生物数据分析的Bicluster算法:一项调查IEEE Trans。计算 生物学 生物信息。1,24-45。
  7. Badea,L.(2009年)。重叠Biclusters的广义聚类图。IJCAI
  8. Symeonidis,P。(2006)。最近二元协同过滤。WEBKDD

1
好答案。如果我还有一票,我将再次投票给这个答案。
亨利·B。

@chl指向Pardalos幻灯片的第一个链接似乎已死。有人知道替代位置吗?
Erik

@Erik幻灯片中的大多数材料都可以由同一作者通过分数0–1编程在“ 一致的成簇”中找到。(我用失效链接的副本检查了幻灯片的内容。)
chl 2013年

4

这是一份不错的调查/评论:

Stanislav Busygin,Oleg Prokopyev和Panos M.Pardalos。 数据挖掘中的集群化。计算机与运筹学,35(9):2964-2987,2008年9月。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.