相关矩阵的SVD应该是可加的,但似乎不是


29

我只是想复制以下论文中的主张,即从Gene Expression Data中找到相关的Biclusters,即:

命题4.如果。那么我们有:XIJ=RICJT

一世。如果是具有加性模型的理想双齐群,则X I J是在列上具有相关性的理想双齐群; ii。如果C J是带加性模型的理想双齐群,则X I J是行相关的理想双齐群。 iii。如果R IC J都是具有加性模型的理想双齐群,则X I J是理想的相关双齐群。RIXIJ
CJXIJ
RICJXIJ

这些主张很容易得到证明。

...但是,当然,他们没有证明这一点。

我使用论文中的一些简单示例以及基本代码+自定义R代码来查看我是否可以演示该建议。

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(来自表1F)

一些自定义代码,可以将标准X = svd形式转换为X = R C T,如本文所述:üdVŤX=[RCŤ

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

将此函数应用于数据集:

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

除非我产生幻觉,否则即使矩阵在行和列之间显示出完美的相关性,该矩阵也不是可加的。他们提供的示例确实显示了他们应说的属性,这似乎很奇怪……除非我错过了某种SVD转换之前或之后的转换步骤?


3
嗨,zzk:在这里简要地给出完美的双曲线的定义可能会有所帮助,因为(a)并非每个人都可以访问该论文,并且(b)取决于一个人所假设的普遍性,它可能意味着几件不同的事情。
主教

1
基本上,矩阵的所有行与行,列与列之间的成对相关分数的绝对值为
1。– zzk 2012年

3
我糊涂了。没那么4iiiP(R), P(C), additivity => P(X)吗 (我缩写为“ Yis a perfect bicluster” P(Y))。看来您正在朝另一个方向发展,并期望其他条件下的可加性。请解释更多。
笨拙的乔·皮特2012年

笨拙-我期望R&C具有可加性,因为我知道我提供的矩阵(corbic)表现出完美的相关性-如论文本身所给出的,它具有完美的bicluster。
zzk 2012年

6
我仍然认为您的方向错误。4iii 不说,如果X是完全相关的bicluster然后RC将添加剂。蕴含着另一个方向。现在,我同意他们给出的示例似乎不符合其所依据的定理是很奇怪的。也许您还可以提供其他一些信息?还有其他定理朝另一个方向发展吗?
笨拙的乔·皮特2012年

Answers:


2

请注意,本文中的“双簇”是指矩阵的子集“行的子集在列的子集上表现出相似的行为,反之亦然”。通常在数据挖掘算法中完成双群的识别。作者正在开发一种新的“相关双聚类模型”,该模型与以前用于识别这些子集的模型不同。我对遗传学一无所知,但是这里的混乱似乎很明显,并且有两个来源:

1.使用“添加剂”一词

本文中没有任何内容暗示函数输出中给定的两个矩阵应该是“可加的”,如果用“可加的”来表示,则可加逆就是OP的含义。作者在这个意义上没有使用“添加剂”一词。他们指的是获得具有加性模型的二元组,“其中每个行或列都可以通过将常数添加到另一行或列来获得。”

2.误读命题4.3

[R一世CĴX一世ĴX一世Ĵ[R一世CĴ[R一世CĴ 应该是反加法的,或者应该能够与加法模型拟合。

*此外,示例数据来自论文的另一部分,与问题中讨论的命题完全不同。


很高兴看到我们网站上[迄今为止]最受好评的未解决问题!即使我还没有读过论文,也无法保证您所写的内容是正确的,但+1;但这确实合理。
变形虫说莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.