双层集群入门

9

我一直在做一些关于bicluster的互联网研究。（我已经阅读了Wiki文章多次。）到目前为止，似乎没有什么定义或标准术语。

我想知道是否有任何对寻找二聚体算法感兴趣的标准论文或书籍。
是否可以说该领域的最新技术水平？我对使用遗传算法找到双聚类的想法很感兴趣，因此，尤其是在其他方法的背景下，我将对该方法的评论表示赞赏。
通常在群集中，目标是将数据集划分为组，其中每个元素都位于某个组中。bicluster算法是否还试图将所有元素放在一个特定的组中？

clustering data-mining

— 亨利·B。
source

16

我从来没有直接使用过它，所以我只能分享一些我曾发表过的论文以及对该技术的一般想法（主要解决您的问题1和3）。

我对双簇聚类的一般理解主要来自基因研究（2-6），我们试图解释基因簇和个体分组：总之，我们希望将共享相似基因表达谱的样本分组在一起（这可能与（例如疾病状态）和有助于这种基因分析模式的基因。Pardalos的幻灯片Biclustering中提供了有关生物学“大规模”数据集的最新技术的概述。请注意，有一个R包biclust，可用于微阵列数据。

实际上，我最初的想法是将该方法应用于临床诊断，因为它允许将特征或变量放在一个以上的聚类中，这从符号学的角度来看是很有趣的，因为聚类在一起的症状可以定义综合症，但某些症状可以在不同疾病中重叠。可以在Cramer等人的《合并症：网络观点》中找到一个很好的讨论（Behavioral and Brain Sciences 2010，33，137-193）。

一种与之相关的技术是协作过滤。Su和Khoshgoftaar提供了很好的评论（人工智能的进展，2009年）：协作过滤技术概述。其他参考文献在末尾列出。也许对频繁项目集的分析（例如在市场购物问题中得到证明）也与此相关，但是我从未对此进行调查。共聚的另一个例子是当我们想要同时聚类单词和文档时，例如在文本挖掘中，例如Dhillon（2001）。使用二部光谱图分区对文档和单词进行聚类。程序 KDD，第269–274页。

关于一些一般参考，这不是一个非常详尽的列表，希望对您有用：

in那教（2010）。数据聚类：距离K均值50年。模式识别快报，31，651-666
Carmona-Saez等。（2006）。通过非光滑非负矩阵因子分解的基因表达数据的双聚类。BMC生物信息学，7，78。
Prelic等。（2006）。基因表达数据双聚类方法的系统比较与评价。生物信息学，22（9），1122-1129。www.tik.ee.ethz.ch/sop/bimax
DiMaggio等。（2008）。通过系统生物学中数据矩阵的最佳重新排序来建立集群：严格的方法和比较研究。BMC生物信息学，9，458。
Santamaria等。（2008）。BicOverlapper：用于双星集群可视化的工具。生物信息学，24（9），1212-1213。
Madeira，SC和Oliveira，AL（2004）生物数据分析的Bicluster算法：一项调查。IEEE Trans。计算生物学生物信息。，1，24-45。
Badea，L.（2009年）。重叠Biclusters的广义聚类图。IJCAI
Symeonidis，P。（2006）。最近二元协同过滤。WEBKDD

— hl
source

1

好答案。如果我还有一票，我将再次投票给这个答案。

— 亨利·B。

@chl指向Pardalos幻灯片的第一个链接似乎已死。有人知道替代位置吗？

— Erik

@Erik幻灯片中的大多数材料都可以由同一作者通过分数0–1编程在“ 一致的成簇”中找到。（我用失效链接的副本检查了幻灯片的内容。）

— chl 2013年

4

这是一份不错的调查/评论：

Stanislav Busygin，Oleg Prokopyev和Panos M.Pardalos。数据挖掘中的集群化。计算机与运筹学，35（9）：2964-2987，2008年9月。

— kc2001
source