使用中值抛光进行特征选择


9

在最近阅读的一篇论文中,我在他们的数据分析部分遇到了以下内容:

然后将数据表拆分为组织和细胞系,然后将两个子表分别进行中值抛光(将行和列进行迭代调整以使中值0),然后再重新合并为单个表。然后,我们最终选择了至少三个测试样本中其表达与该样本集的中值相差至少4倍的基因子集

我不得不说我并不完全遵循这里的推理。我想知道您是否可以帮助我回答以下两个问题:

  1. 为什么在数据集中调整中位数期望/有帮助?为什么要对不同类型的样品分别进行处理?

  2. 如何不修改实验数据?这是从大量数据中选择许多基因/变量的已知方法吗?还是比较随意?

谢谢,


您能否详细说明您/他们正在查看哪种数据?我认为,根据您所引用的内容-对我而言-该方法似乎是临时的。
suncoolsu 2011年

@suncoolsu:如果您熟悉此概念,则为微阵列数据。如果没有,我可以总结为:哪些基因表达,在研究样品中表达到什么程度。这是一个更好的解释:en.wikipedia.org/wiki/Gene_expression_profiling
posdef 2011年

@suncoolsu几乎可以肯定是基因表达分析数据。
克里加

好的-我不确定下一代测序是否也很流行。
suncoolsu 2011年

Answers:


10

Tukey中值波兰语算法用于微阵列的RMA标准化。如您所知,微阵列数据非常嘈杂,因此考虑到所有探针和微阵列的观察结果,它们需要一种更可靠的方法来估算探针强度。这是用于标准化跨阵列的探针强度的典型模型。

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

哪里 Yij 是个 log 转换后的PM强度 ith探究 jth 数组。 ϵij是背景噪声,在正常线性回归中可以假定它们对应于噪声。但是,关于ϵ 可能是限制性的,因此我们使用Tukey中值波兰语得出 μi^αj^。这是在整个阵列之间进行归一化的一种可靠方法,因为我们要从阵列效应中分离出信号(探头产生的强度),α。我们可以通过归一化阵列效应来获得信号αj^对于所有阵列。因此,我们只剩下探针效应和一些随机噪声。

我之前引用的链接使用Tukey中值修饰剂通过按探针效应进行排名来估计差异表达的基因或“有趣的”基因。但是,该论文已经很老了,可能那时人们仍在尝试弄清楚如何分析微阵列数据。埃夫隆(Efron)的非参数经验贝叶斯方法论文发表于2001年,但可能未得到广泛使用。

但是,现在我们(从统计上)对微阵列了解很多,并且对它们的统计分析非常确定。

微阵列数据非常嘈杂,RMA(使用中值波兰语)是最流行的标准化方法之一,可能是因为其简单性。其他流行和复杂的方法是:GCRMA,VSN。标准化很重要,因为关注的是探针效应而不是阵列效应。

如您所料,某些方法可以利用基因间信息的借用,从而使分析受益。这些可以包括贝叶斯方法或经验贝叶斯方法。可能是您正在阅读的论文已经过时,并且这些技术直到那时才被使用。

关于第二点,是的,他们可能正在修改实验数据。但是,我认为,这种修改是出于更好的理由,因此是合理的。原因是

a)芯片数据非常嘈杂。当感兴趣的是探测效果时,需要通过RMA,GCRMA,VSN等对数据进行规范化,并且可以利用数据中的任何特殊结构来实现。但是我会避免做第二部分。这主要是因为如果我们事先不知道其结构,最好不要施加很多假设。

b)大多数微阵列实验本质上都是探索性的,也就是说,研究人员正在尝试缩小到几组“有趣的”基因,以进行进一步的分析或实验。如果这些基因具有很强的信号,则像归一化这样的修饰不应(基本上)影响最终结果。

因此,修改是合理的。但是我必须指出,过度规范化可能导致错误的结果。


+1这是比我的尝试更好的答案。谢谢。
克里加

@posdef。我想知道论文的统计分析中是否有统计学家。
suncoolsu 2011年

感谢您的彻底答复。我认为,这是预处理步骤这一事实在本文中并没有得到很好的解释(或者只是假设是众所周知的)。说到这,该论文发表于2000年(《自然》杂志上),所以我认为,如果他们不参与写作,他们至少会对他们的方法有一些统计学家的关注。但是我当然只能推测.. :)
posdef

@posdef。好的,可以回答很多问题。2000年是人们仍在思考如何分析微阵列数据的时候。FDR当时并不花哨:-)
suncoolsu 2011年

4

您可能会发现在4和5页一些线索

这是一种计算模型残差的方法

yi,j=m+ai+bj+ei,j
通过计算 maibj 因此,如果 ei,j 列表中,每行和每列的中位数为0。

较传统的方法是计算 maibj 因此残差的每一行和每一列的均值(或总和)为0。

使用中位数的优点是对少数异常值具有鲁棒性。缺点是,如果没有异常值,则会丢弃可能有用的信息。


感谢您的回答,以及参考链接。但是,我看不到此模型如何解决当前的问题。假设数据是比较表达式值(读:丰度),如何定义aibjei,j??
posdef,2011年

相反,如果您采用诸如 ni,j=niqj+ei,j 或一个 log(ni,j)=log(n)+log(pi)+log(qj)+ei,j那么你基本上可以做同样的事情,使每一行和残差表的每一列的中值等于0
亨利

@Henry当没有“离群值”时,哪些信息会被中位数抛光“抛出”(无论如何,“离群值”到底是什么意思)?毕竟,您可以通过总体中位数,行和列中位数以及残差来精确地重建数据,所有这些都构成了中位数抛光的输出。如果您是说将残差丢弃,那么“平均抛光”(相当于OLS)在这方面有何不同?
ub

@whuber:在两种情况下都保留残差。平均抛光会考虑到观测值离中心有多远(在某种意义上说,它平衡了残差的权重),而中值抛光仅查看它们在中心之上还是之下(在某种意义上,它平衡了中心值)。残数)。因此,以中位数为中心时,权重信息未使用。当一些重要的权重/残差太可疑以至于无法信任中心的结果时,如果不这样做,则涉及不使用信息,这可能会很好。
亨利

@Henry如果您可以从波兰语中恢复所有原始数据,那么“信息”如何不被“使用”?顺便说一句,波兰语中位数的行为并不像您所描述的那样:其残差是数据的差异而不是排名的差异。
ub

3

似乎您正在阅读一篇进行基因差异表达分析的论文。做过一些涉及微阵列芯片的研究后,我可以分享我对使用中值抛光的知识(希望是正确的)。

在微阵列预处理的汇总步骤中使用中值抛光是消除具有完全匹配探针的芯片(至少对于RMA)离群数据的标准方法。

微阵列数据的中值抛光是您在行和列中具有芯片效应和探针效应的位置:

对于x芯片上的每个探针组(由n个相同的探针组成):

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

iv是强度值

由于探针强度的可变性,在总结之前,几乎所有的微阵列数据分析都使用某种背景校正和归一化处理。

这里有一些指向bioC邮件列表线程的链接,这些线程讨论使用中值抛光与其他方法:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

通常会分别分析来自组织和细胞系的数据,因为培养细胞时,它们的表达谱与采集的组织样品相比发生了巨大变化。没有更多的论文,很难说分开处理样品是否合适。

分析流水线中的标准化,背景校正和汇总步骤都是对实验数据的修改,但是在未处理状态下,芯片效应,批效应,处理效应会掩盖任何分析信号。这些微阵列实验生成的基因列表可用于后续实验(qPCR等)以确认结果。

就临时而言,请问5个人将一个基因差异表达所需的倍数差异,您将至少提出3个不同的答案。


感谢您提供的最新答案,我想我现在开始有了想法。因此,如果我理解正确,可以使用中值抛光来评估关于探针和芯片的技术变异性?...在对实验进行总计之前,要保存多达1个在不同条件下基因的表达值的矩阵?
posdef,2011年

根据我的理解@posdef是的。对于芯片上的每个探针集(相同序列的探针),都有散布在各处的探针。请使用plmimagegallery.bmbolstad.com获取芯片的一些伪图像。除了单个芯片内的可变性之外,芯片之间还存在可变性。由于技术上的可变性,对原始强度值运行算法,以获取探针集的单个“表达值”。然后,这些值的矩阵适合确定基因在不同条件下是否差异表达。
2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.