Questions tagged «bioinformatics»

计算和生物科学的交叉学科,涉及组织,维护和分析分子生物学,遗传学和基因组学等领域的数据

11
学习马尔可夫链和隐马尔可夫模型的资源
我正在寻找资源(教程,教科书,网络广播等)来了解Markov Chain和HMM。我的背景是生物学家,目前正在从事与生物信息学有关的项目。 另外,我需要对Markov模型和HMM有足够了解的必要数学背景是什么? 我一直在寻找使用Google的方法,但是到目前为止,我还没有找到一个很好的入门教程。我敢肯定,这里的人知道得更多。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

2
负二项分布的连续推广
负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.是否有意义考虑对非负实数的连续分布由相同的公式定义(替换ķ ∈ Ñ0ķ∈ñ0k\in \mathbb N_0通过X ∈ ř≥ 0X∈[R≥0x\in\mathbb R_{\ge 0})?可以将二项式系数重写为(k + 1)\ cdot \ ldots \ cdot(k + r-1)的乘积,该乘积(k + 1 )⋅ … ⋅ (k + r − 1 )(ķ+1个)⋅…⋅(ķ+[R-1个)(k+1)\cdot\ldots\cdot(k+r-1)对于任何实数k都是定义明确的ķķk。因此,我们将得到一个PDF F(X ; - [R ,p )α Π我= 1r − 1(X + 我)⋅ pX(1 − p )[R。F(X;[R,p)∝∏一世=1个[R-1个(X+一世)⋅pX(1个-p)[R。f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. 更一般而言,我们可以用Gamma函数替换二项式系数,从而允许r的非整数值[R[Rr: F(X …

4
我们可以从人工神经网络中学到什么关于人脑?
我知道我的问题/标题不是很具体,所以我将尝试澄清一下: 人工神经网络的设计相对严格。当然,通常,它们会受到生物学的影响,并尝试建立真实神经网络的数学模型,但是我们对真实神经网络的理解不足以建立精确的模型。因此,我们无法构思出精确的模型或“接近”真实神经网络的任何事物。 据我所知,所有人工神经网络都与真实神经网络相距甚远。标准,经典的全连接MLP在生物学中不存在。递归神经网络缺乏实际的神经可塑性,RNN的每个神经元都具有相同的“反馈结构”,而真实的神经元则保存并共享它们的信息而不是单独地。卷积神经网络是有效且流行的,但是(例如)人脑中的图像处理仅由几个卷积层组成,而现代解决方案(如GoogLeNet)已经使用了数十个卷积层……尽管它们为计算机产生了很好的结果,它们甚至不接近人类的表现。尤其是当我们想到“每层性能”时,与真实的神经网络相比,我们需要大量的层并减少数据。 此外,据我所知,与真实神经网络的巨大适应性相比,即使是模块化的,自扩展/自重构的人工神经网络也相当“固定和静态”。生物神经元通常具有成千上万的树突,将神经元连接到各种各样的不同区域和其他神经元。人工神经网络更加“直接”。 那么,我们能从人工神经网络学到关于人脑/真实神经网络的任何信息吗?还是只是尝试创建一种性能要比经典的静态算法更好的软件(甚至在此类算法失败的地方做些事情)? 有人可以提供(最好是科学的)有关此主题的资源吗? 编辑:高度赞赏更多答案(:

3
可以直观地解释用于检测非线性相关性的MIC算法吗?
最近,我读了两篇文章。第一个是相关性的历史,第二个是称为最大信息系数(MIC)的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。 此外,可以在作者的网站上找到有关在R中使用它的说明(在下载下): 我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法,如作者所说。 “ ... ...我们需要将MIC(X,Y)扩展到MIC(X,Y | Z)。我们将想知道需要多少数据才能获得MIC的稳定估计值,离群值有多容易受到影响,这三个-或更高维度的关系将丢失,甚至更多。MIC是向前迈出的重要一步,但还有更多步骤需要采取。 ”

2
高度不平衡数据集的培训方法
我有一个高度不平衡的测试数据集。正集包含100个案例,而负集包含1500个案例。在训练方面,我有一个更大的候选库:正面训练集有1200个案例,负面训练集有12000个案例。对于这种情况,我有几种选择: 1)在整个训练集中使用加权SVM(P:1200,N:12000) 2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个否定案例。 在确定哪种方法更好方面是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡训练集?

4
为DNA测序确定负二项分布
负二项式分布已成为生物信息学中计数数据(特别是来自给定实验的基因组给定区域内预期的测序读数预期数量)的流行模型。解释各不相同: 一些人将其解释为类似于Poisson分布的工作原理,但具有附加参数,可以为真实分布建模提供更多自由,方差不一定等于均值 一些人将其解释为泊松分布的加权混合(在泊松参数上具有伽玛混合分布) 有没有办法将这些原理与负二项式分布的传统定义相吻合,即在看到一定数量的失败之前先对伯努利试验的成功次数进行建模?还是我应该将它作为泊松分布与伽玛混合分布的加权混合具有与负二项式相同的概率质量函数的快乐巧合?

8
机器学习的“热门算法”是什么?
对于开始学习机器学习的人来说,这是一个幼稚的问题。这些天,我正在阅读Marsland的著作《机器学习:算法的观点》。我觉得它作为入门书籍很有用,但是现在我想进入高级算法,那些算法目前效果最好。我最感兴趣的是生物信息学:生物网络的聚类和生物序列中的模式发现,尤其是应用于单核苷酸多态性(SNP)分析。您能为我推荐一些评论或书籍吗?

7
从统计理论和应用中了解
我最近获得了医学和生物学建模硕士学位,并以工程数学为背景。尽管我的教育计划包括大量的数学统计学课程(请参见下面的列表),而且我都取得了很高的成绩,但我经常最终完全迷失了对统计学的理论和应用的迷恋。我不得不说,与“纯粹的”数学相比,统计学对我而言确实没有什么意义。尤其是大多数统计学家(包括我以前的讲师)使用的符号和语言令人费解,并且到目前为止,我所见过的几乎所有资源(包括维基百科)都没有简单的例子可以轻松地与给定的理论联系起来并与之联系在一起。 .. 这是背景;我也意识到,如果没有牢牢掌握统计数据,尤其是在生物信息学领域,我就无法从事研究人员/工程师的工作,这真是令人痛苦的现实。 我希望可以从经验丰富的统计学家/数学家那里获得一些提示。如何克服上面提到的这个问题?你知道任何好的资源吗?例如书籍,电子书,公开课程(例如,通过iTunes或OpenCourseware)。 编辑:正如我提到的那样,我对统计的一般标题下的大多数文献都持偏颇(消极)的态度,并且由于我无法在每个统计分支购买大量(昂贵的)教科书,因此我需要就一本书而言,它与Tipler&Mosca 的物理学相似,但与统计学无关。 对于那些不了解Tipler的人;它是一本大型教科书,涵盖了人们在高等教育中可能遇到的绝大多数主题,并从基础入门到更详细地介绍了它们。基本上是一本完美的参考书,在我读大学的第一年就买了,仍然偶尔使用。 我参加过的统计课程: 大型的入门课程 平稳的随机过程 马尔可夫过程 蒙特卡洛方法 生存分析

2
计算RNA序列和ChIP芯片数据集之间的基因列表重叠的可能性
希望这些论坛上的人可以帮助我解决基因表达研究中的这一基本问题。 我对实验和对照组织进行了深度测序。然后,我获得了超出对照的实验样品中基因的倍数富集值。参考基因组有〜15,000个基因。与对照相比,我感兴趣的样本中的15,000个基因中有3,000个富集到某个临界值以上。 因此:A =总基因种群= 15,000 B = RNA-Seq富集的亚群= 3,000。 在先前的ChIP芯片实验中,我发现了400个被ChIP芯片丰富的基因。在400个ChIP芯片基因中,有3,000个富集RNA-Seq转录本的组中有100个基因。 因此:C =芯片上富含芯片的基因总数= 400。 仅凭偶然机会,我的100个ChIP芯片基因就会被RNA-Seq富集的可能性是多少?换句话说,最谨慎的方法是计算我观察到的B和C(100个基因)之间的重叠是否比仅凭偶然获得的重叠更好?到目前为止,根据我的读物,测试这一点的最佳方法是使用超几何分布。 我使用了一个在线计算器(stattrek.com),使用以下参数设置了超几何分布测试:-流行数量= 15,000-总体成功次数= 3,000-样本数量= 400,-成功数量= 100。对于超几何概率P(x = 100)= 0.00224050636447747我得到以下信息 B和C之间重叠的实际基因数量=100。这是否比偶然碰碰更好?如果任何一个基因被富集的机会是1:5(15,000个中的3,000个),看起来就不是这样。这就是为什么我不知道我上面计算的P(x = 100)是0.0022的原因。这等于偶然发生重叠的机会为0.2%。这不应该更高吗? 如果我从15,000个大列表中抽取了400个随机基因,那么这些基因中的任何80个都将被偶然地丰富(1:5)。实际上重叠的基因数量是100,所以这比偶然的情况好一点。 我还尝试提出一种使用R中的hyper或phyper函数的解决方案(使用我在另一篇文章中看到的):A =基因组中的所有基因(15,000)B =富含RNA-Seq的基因(3,000)C = ChIP芯片富集基因(400)这是R输入/输出(改编自先前的stackexchange帖子): > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, sample2) [1] 4.431784e-40 …

2
通过基因重复水平进行富集分析
生物学背景 随着时间的流逝,某些植物物种倾向于复制其整个基因组,从而获得每个基因的额外副本。由于这种设置的不稳定性,许多这些基因随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件相关,并且理论上说复制可以帮助植物更快地适应其新环境。 羽扇豆属开花植物属入侵安第斯山脉,是有史以来发现的最迅速的物种形成事件之一,而且,与最密切相关的属巴氏杆菌属相比,它的基因组中有更多重复副本。 现在是数学问题: 已经对羽扇豆成员和巴氏杆菌成员的基因组进行了测序,从而提供了每个物种中约25,000个基因的原始数据。通过查询已知功能基因的数据库,我现在对基因可能具有的功能有了“最佳猜测”-例如,Gene1298可能与“果糖代谢,盐胁迫反应,冷胁迫反应”相关。我想知道,巴普蒂西亚和羽扇豆之间是否有重复事件,基因丢失是随机发生的,还是具有特定功能的基因更可能被保留或删除。 我有一个脚本,它将输出如下表所示的表。L *是与功能相关的所有羽扇豆基因的计数。L 1+是与至少存在一个重复副本的功能相关的羽扇豆基因的计数。我可以得到它来产生L 2 +,L 3+等,尽管由于测序过程,L 1+比L 2+更可靠。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
统计和信息学之间有什么区别?
我们总是说统计只是在处理数据。但是我们也知道,信息学也在从数据分析中获取知识。例如,生物信息学的人们可以完全不用生物统计学。我想知道统计学和信息学之间的本质区别是什么。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.