Questions tagged «genetics»

关于遗传原理和相关生物之间遗传性状变异的科学研究。

6
在机器学习中执行交叉验证时为“最终”模型选择特征
我对功能选择和机器学习有些困惑,我想知道您是否可以帮助我。我有一个微阵列数据集,该数据集分为两组并具有1000多个特征。我的目标是获得签名中的少量基因(我的特征)(10-20个),从理论上讲,我可以将其应用于其他数据集以对这些样本进行最佳分类。由于我没有那么多样本(<100),因此我没有使用测试和训练集,而是使用了留一法交叉验证来确定稳健性。我读过,应该对样本的每一部分进行特征选择,即 选择一个样本作为测试集 在其余样本上执行特征选择 使用所选功能将机器学习算法应用于剩余样本 测试测试集是否正确分类 转到1。 如果这样做,您每次可能会获得不同的基因,那么如何获得“最终”最优基因分类器呢?即第6步是什么。 我的意思是最理想的是任何进一步研究都应使用的基因集合。例如,假设我有一个癌症/正常数据集,我想找到将根据SVM对肿瘤类型进行分类的前10个基因。我想知道可以在进一步实验中使用的基因集和SVM参数,以查看其是否可以用作诊断测试。

6
我是由1300年出生的某个人继承而来的可能性有多大?
换句话说,基于以下内容,p是多少? 为了使这成为数学问题,而不是人类学或社会科学问题,并简化该问题,假定在整个人口中选择同伴的概率相同,除了兄弟姐妹和第一代表亲从未交配,并且总是从同一个中选择同伴代。 n1n1n_1初始人口 ggg数代。 ccc每对夫妇的平均子女数。(如果需要答案,请假设每对夫妇的子女数完全相同。) zzz没有孩子并且不被视为伴侣的人口百分比。 n 2 zn2n2n_2人口。(应该给出或,(我认为)可以计算出另一个。)n2n2n_2zzz ppp最终一代中某人成为初始一代中特定人的后代的概率。 这些变量当然可以更改,省略或添加。为了简单起见,我假设和不会随时间变化。我意识到这将得到一个非常粗略的估计,但这是一个起点。ccczzz 第2部分(建议进一步研究): 您如何认为未以全局一致的概率选择伴侣?实际上,伴侣更有可能具有相同的地理区域,社会经济背景,种族和宗教背景。如果不研究此问题的实际概率,这些因素的变量将如何发挥作用?这有多重要?

4
校正与测试相关的多个测试的p值(遗传)
我从很多测试中获得了p值,并且想知道在对多个测试进行校正后是否确实存在一些重要的东西。并发症:我的测试不是独立的。我正在考虑的方法(Fisher's Product Method的一个变体,Zaykin等,Genet Epidemiol,2002)需要p值之间的相关性。 为了估计这种相关性,我目前正在考虑引导情况,运行分析并使p值的结果向量相关联。有谁有更好的主意吗?甚至对我的原始问题有一个更好的主意(更正相关测试中的多个测试)? 背景:我正在逻辑上回归我的受试者是否因其基因型(AA,Aa或aa)与协变量之间的相互作用而患有某种疾病。但是,该基因型实际上是很多(30-250)单核苷酸多态性(SNP),它们肯定不是独立的,而是连锁不平衡。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


1
分位数归一化如何工作?
在使用微阵列的基因表达研究中,必须对强度数据进行标准化,以便可以比较个体之间,基因之间的强度。从概念上和算法上,“分位数规范化”如何工作,您将如何向非统计学家解释?

2
计算RNA序列和ChIP芯片数据集之间的基因列表重叠的可能性
希望这些论坛上的人可以帮助我解决基因表达研究中的这一基本问题。 我对实验和对照组织进行了深度测序。然后,我获得了超出对照的实验样品中基因的倍数富集值。参考基因组有〜15,000个基因。与对照相比,我感兴趣的样本中的15,000个基因中有3,000个富集到某个临界值以上。 因此:A =总基因种群= 15,000 B = RNA-Seq富集的亚群= 3,000。 在先前的ChIP芯片实验中,我发现了400个被ChIP芯片丰富的基因。在400个ChIP芯片基因中,有3,000个富集RNA-Seq转录本的组中有100个基因。 因此:C =芯片上富含芯片的基因总数= 400。 仅凭偶然机会,我的100个ChIP芯片基因就会被RNA-Seq富集的可能性是多少?换句话说,最谨慎的方法是计算我观察到的B和C(100个基因)之间的重叠是否比仅凭偶然获得的重叠更好?到目前为止,根据我的读物,测试这一点的最佳方法是使用超几何分布。 我使用了一个在线计算器(stattrek.com),使用以下参数设置了超几何分布测试:-流行数量= 15,000-总体成功次数= 3,000-样本数量= 400,-成功数量= 100。对于超几何概率P(x = 100)= 0.00224050636447747我得到以下信息 B和C之间重叠的实际基因数量=100。这是否比偶然碰碰更好?如果任何一个基因被富集的机会是1:5(15,000个中的3,000个),看起来就不是这样。这就是为什么我不知道我上面计算的P(x = 100)是0.0022的原因。这等于偶然发生重叠的机会为0.2%。这不应该更高吗? 如果我从15,000个大列表中抽取了400个随机基因,那么这些基因中的任何80个都将被偶然地丰富(1:5)。实际上重叠的基因数量是100,所以这比偶然的情况好一点。 我还尝试提出一种使用R中的hyper或phyper函数的解决方案(使用我在另一篇文章中看到的):A =基因组中的所有基因(15,000)B =富含RNA-Seq的基因(3,000)C = ChIP芯片富集基因(400)这是R输入/输出(改编自先前的stackexchange帖子): > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, sample2) [1] 4.431784e-40 …

2
通过基因重复水平进行富集分析
生物学背景 随着时间的流逝,某些植物物种倾向于复制其整个基因组,从而获得每个基因的额外副本。由于这种设置的不稳定性,许多这些基因随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件相关,并且理论上说复制可以帮助植物更快地适应其新环境。 羽扇豆属开花植物属入侵安第斯山脉,是有史以来发现的最迅速的物种形成事件之一,而且,与最密切相关的属巴氏杆菌属相比,它的基因组中有更多重复副本。 现在是数学问题: 已经对羽扇豆成员和巴氏杆菌成员的基因组进行了测序,从而提供了每个物种中约25,000个基因的原始数据。通过查询已知功能基因的数据库,我现在对基因可能具有的功能有了“最佳猜测”-例如,Gene1298可能与“果糖代谢,盐胁迫反应,冷胁迫反应”相关。我想知道,巴普蒂西亚和羽扇豆之间是否有重复事件,基因丢失是随机发生的,还是具有特定功能的基因更可能被保留或删除。 我有一个脚本,它将输出如下表所示的表。L *是与功能相关的所有羽扇豆基因的计数。L 1+是与至少存在一个重复副本的功能相关的羽扇豆基因的计数。我可以得到它来产生L 2 +,L 3+等,尽管由于测序过程,L 1+比L 2+更可靠。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

1
功率分析,用于生存分析
如果我假设基因签名可以识别出较低的复发风险,即20%的人群中的事件发生率降低0.5(危险比为0.5),并且我打算使用回顾性队列研究的样本是否需要针对两个假设的组中不相等的数字来调整样本量? 例如,使用Collett,D:《医学研究中的生存数据建模》,第二版-2003年第二版。可以使用以下方法找到所需的事件总数d, d=(Zα/2+Zβ/2)2p1p2(θR)2d=(Zα/2+Zβ/2)2p1p2(θR)2\begin{equation} d = \frac{(Z_{\alpha/2} + Z_{\beta/2})^2}{p_1 p_2 (\theta R)^2} \end{equation} 其中和Z _ {\ beta / 2}分别是标准正态分布的上\ alpha / 2和上\ beta / 2点。Zα/2Zα/2Z_{\alpha/2}Zβ/2Zβ/2Z_{\beta/2}α/2α/2\alpha/2β/2β/2\beta/2 对于特定的值, p1=0.20p1=0.20p_1 = 0.20 p2=1−p1p2=1−p1p_2 = 1 - p_1 θR=−0.693θR=−0.693\theta R = -0.693 α=0.05α=0.05\alpha = 0.05,所以Z0.025=1.96Z0.025=1.96Z_{0.025}= 1.96 β=0.10β=0.10\beta = 0.10,所以Z0.05=1.28Z0.05=1.28Z_{0.05} = 1.28, 并θR=logψR=log0.50=−0.693θR=log⁡ψR=log⁡0.50=−0.693\theta R = \log …


2
软阈值与套索惩罚
我正在尝试总结到目前为止在使用高维数据集进行的惩罚性多元分析中所了解的内容,但我仍然在努力获得正确的软阈值与Lasso(或)惩罚的定义方面遇到困难。L1L1L_1 更准确地说,我使用稀疏PLS回归分析包括基因组数据的2块数据结构(单核苷酸多态性,其中我们将次等位基因的频率在{0,1,2}范围内,视为数值变量)和连续表型(量化人格特征或脑不对称性的得分,也视为连续变量)。这个想法是要找出最有影响力的预测因子(这里是DNA序列的遗传变异)来解释个体之间的表型变异。 我最初使用mixOmics R包(以前integrOmics),该包具有受罚的PLS回归和正则化的CCA。查看R代码,我们发现预测变量中的“稀疏性”只是通过选择第个分量(算法为)上具有最高负载(绝对值)的前变量来诱发的是迭代的并且计算组件上的变量负载,在每次迭代时缩小预测变量块,有关概述,请参见稀疏PLS:集成Omics数据时的变量选择)。相反,S。Keleş与他人合着了spls软件包(请参见i i = 1 ,... ,k k L 1kkkiiii=1,…,ki=1,…,ki=1,\dots, kkkk稀疏偏最小二乘回归的同时降维和变量选择,对于这些作者所采取的方式)实现一个更加正式的描述 -penalization变量处罚。L1L1L_1 在我看来,在基于软阈值的迭代特征选择和正则化之间是否存在严格的“双射”并不明显。所以我的问题是:两者之间是否存在数学联系?L1L1L_1 参考文献 Chun,H.和Kelȩs,S.(2010),稀疏偏最小二乘用于同时减少维数和变量选择。皇家统计学会:B系列,72,3-25。 Le Cao,K.-A.,Rossoou,D.,Robert-Granie,C.和Besse,P.(2008年),《整合Omics数据时用于变量选择的稀疏PLS》。在遗传学和分子生物学统计应用程序,7,第35条。

3
通过PCA进行的Mahalanobis距离
我有一个 Ñ × pñ×pn\times p 矩阵,其中 ppp 是基因的数量, ññn是患者人数。任何使用过此类数据的人都知道ppp 总是大于 ññn。使用功能选择我已经ppp 下降到一个更合理的数字 ppp 仍然大于 ññn。 我想根据患者的遗传特征计算其相似度;我可以使用欧式距离,但是马哈拉诺比斯似乎更合适,因为它考虑了变量之间的相关性。问题(如在此说明的交)是Mahalanobis距离,特别是协方差矩阵,不工作时n &lt; pñ&lt;pn < p。当我在R中运行马氏距离时,得到的错误是: Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 到目前为止,为了解决这个问题,我使用了PCA,而不是使用基因,而是使用了成分,这似乎使我能够计算出马氏距离。5个分量代表方差的80%,所以现在Ñ &gt; pñ&gt;pn > p。 我的问题是:我可以使用PCA有意义地获取患者之间的马氏距离,还是不合适?是否有替代距离指标在以下情况下起作用n &lt; pñ&lt;pn < p 并且之间也有很大的相关性 ññn 变量?

1
在GWAS数据集的PCA投影中,孩子如何设法将父母团结在一起?
取20个随机点与每个一万维空间从坐标IID ñ(0 ,1 )ñ(0,1个)\mathcal N(0,1)。将它们分成10对(“对”),并将每对的平均值(“子”)添加到数据集中。然后对所得的30点进行PCA并绘制PC1与PC2的关系图。 发生了一件了不起的事情:每个“家庭”形成一个紧密相连的三元组。当然,在最初的10,000维空间中,每个孩子都更接近其父母中的每个,因此可以期望在PCA空间中每个孩子也都离父母更近。但是,在PCA空间中,每对父母也彼此靠近,即使在原始空间中,它们只是随机点! 在PCA预测中,孩子如何设法将父母团结在一起? \quad\quad\quad\quad 人们可能会担心,这在某种程度上受到以下事实的影响:孩子的规范低于父母。这似乎无关紧要:如果我将子代生成为(x + y)/ 2–√(X+ÿ)/2(x+y)/\sqrt{2},其中XXx和ÿÿy是父母点,那么它们平均具有与父母相同的范数。但是我仍然在PCA领域从质上观察到相同的现象: \quad\quad\quad\quad 这个问题使用的是玩具数据集,但其动机是我在一个全基因组关联研究(GWAS)的真实数据集中所观察到的,其中维度是单核苷酸多态性(SNP)。该数据集包含母婴三重奏。 码 %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # …

1
如何计算几率的标准误?
我有两个来自全基因组关联研究的数据集。唯一可用的信息是第一个数据集的比值比和p值。对于第二个数据集,我具有几率,p值和等位基因频率(AFD =疾病,AFC =对照)(例如:0.321)。我正在尝试对这些数据进行元分析,但是我没有effect size参数来执行此操作。是否有可能仅使用提供的信息来计算每个数据的SE和OR置信区间? 先感谢您 示例:可用数据: Study SNP ID P OR Allele AFD AFC 1 rs12345 0.023 0.85 2 rs12345 0.014 0.91 C 0.32 0.25 利用这些数据,我可以计算出SE和CI95%OR吗?谢谢

4
如何在荟萃分析中计算合并奇数比的置信区间?
我有两个来自全基因组关联研究的数据集。唯一可用的信息是每种基因型SNP的奇数比及其置信区间(95%)。我想生成一个比较这两个比值比的森林图,但是我找不到计算组合的置信区间以可视化汇总效果的方法。我使用程序PLINK使用固定效果执行荟萃分析,但该程序未显示这些置信区间。 如何计算置信区间? 可用数据为: 每个研究的赔率, 95%的置信区间和 标准错误。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.