Tukey中值波兰语算法用于微阵列的RMA标准化。如您所知,微阵列数据非常嘈杂,因此考虑到所有探针和微阵列的观察结果,它们需要一种更可靠的方法来估算探针强度。这是用于标准化跨阵列的探针强度的典型模型。
ÿ我Ĵ=μ一世+αĴ+ϵ我Ĵ
我= 1 ,... ,我j = 1 ,... ,J
哪里 ÿ我Ĵ 是个 升Ò 克 转换后的PM强度 一世Ť ^ h探究 ĴŤ ^ h 数组。 ϵ我Ĵ是背景噪声,在正常线性回归中可以假定它们对应于噪声。但是,关于ϵ 可能是限制性的,因此我们使用Tukey中值波兰语得出 μi^ 和 αj^。这是在整个阵列之间进行归一化的一种可靠方法,因为我们要从阵列效应中分离出信号(探头产生的强度),α。我们可以通过归一化阵列效应来获得信号αj^对于所有阵列。因此,我们只剩下探针效应和一些随机噪声。
我之前引用的链接使用Tukey中值修饰剂通过按探针效应进行排名来估计差异表达的基因或“有趣的”基因。但是,该论文已经很老了,可能那时人们仍在尝试弄清楚如何分析微阵列数据。埃夫隆(Efron)的非参数经验贝叶斯方法论文发表于2001年,但可能未得到广泛使用。
但是,现在我们(从统计上)对微阵列了解很多,并且对它们的统计分析非常确定。
微阵列数据非常嘈杂,RMA(使用中值波兰语)是最流行的标准化方法之一,可能是因为其简单性。其他流行和复杂的方法是:GCRMA,VSN。标准化很重要,因为关注的是探针效应而不是阵列效应。
如您所料,某些方法可以利用基因间信息的借用,从而使分析受益。这些可以包括贝叶斯方法或经验贝叶斯方法。可能是您正在阅读的论文已经过时,并且这些技术直到那时才被使用。
关于第二点,是的,他们可能正在修改实验数据。但是,我认为,这种修改是出于更好的理由,因此是合理的。原因是
a)芯片数据非常嘈杂。当感兴趣的是探测效果时,需要通过RMA,GCRMA,VSN等对数据进行规范化,并且可以利用数据中的任何特殊结构来实现。但是我会避免做第二部分。这主要是因为如果我们事先不知道其结构,最好不要施加很多假设。
b)大多数微阵列实验本质上都是探索性的,也就是说,研究人员正在尝试缩小到几组“有趣的”基因,以进行进一步的分析或实验。如果这些基因具有很强的信号,则像归一化这样的修饰不应(基本上)影响最终结果。
因此,修改是合理的。但是我必须指出,过度规范化可能导致错误的结果。