一本既讲理论又讲数学的好书


10

在我的学年和大学期间,我有足够的统计学课程。我对概念有一定的了解,例如CI,p值,解释统计显着性,多重检验,相关性,简单线性回归(最小二乘法)(通用线性模型)以及所有假设检验。在早期的大部分时间里,我大多是在数学上被介绍给我的。最近,我相信,借助于《直觉生物统计学》一书,我已经掌握了对实际概念理论的前所未有的理解。

现在,我发现我缺乏对拟合模型(估计模型的参数)等的理解。特别是,诸如最大似然估计,广义线性模型,贝叶斯推断统计方法之类的概念对我而言似乎总是陌生的。没有足够的示例或教程或概念上合理的示例,就像人们在简单的概率模型或互联网上的其他(基本)主题中发现的那样。

我是一名生物信息学家,我从事RNA-Seq数据的研究,该数据处理原始读取计数,以便查找基因表达(或差异基因表达)。从我的背景来看,即使我不熟悉统计模型,我也能够掌握泊松分布假设和负二项式等的原因。但是有些论文涉及广义线性模型和估计MLE等。我相信我有必要了解的背景。

我想我要的是你们中的一些专家认为有用的方法,这是一本书,可以帮助我以更直观的方式掌握这些概念(不仅是严格的数学,而且有数学支持的理论)。由于我将主要应用它们,因此(目前)我对了解什么是满意的,以后,我可以返回严格的数学证明...有人有什么建议吗?如果我要求的主题确实分散在一本书中,则我不介意购买多于一本书。

非常感谢你!


您能推荐我一些很好的资源来了解该领域的RNA-Seq数据和统计挑战吗?
Biostat 2011年

1
当然,biostat网站seqanswers.com是NGS的很好资源。您可以从这里开始使用不同的技术以及它们的工作方式:goo.gl/NLuvJ这些文章解释了NGS数据的一些统计问题。简而言之,它们是技术和生物方差估计(关于基因表达)。1)一个第一文件评估技术的变化:ncbi.nlm.nih.gov/pubmed/18550803 2)DESeq:用于基因表达检测的工具:ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
阿伦(Arun)

1
转换为CW,是因为它将提供很多好的建议,并且没有明显的客观标准来确定其中的“最佳”。我希望这也将使读者也更容易对很多答复进行投票:-)。
Whuber

ub!说得通。我可以发表社区维基文章吗?还是需要主持人权限?
阿伦(Arun)

Answers:


5

您会发现您所询问的所有非贝叶斯方法,包括Frank Harrell的回归建模策略。我会把贝叶斯的建议留给知识渊博的人(尽管我的书架上确实有Gelman,Carlin,Stern和Rubin以及Gilks​​,Richardson和Speigelhalter)。市场上应该有几本贝叶斯生物统计书籍。

更新: 当然,McCullach和Nelder(1989)是一本有关GLM的经典著作。坦率地说,这是开创性的,但我觉得它很无聊。此外,它不涵盖诸如残差诊断,零膨胀模型或多级/分层扩展之类的后来增加的内容。Hardin和Hilbe(2007)在Stata中通过实际示例详细介绍了其中的一些新内容(其中GLM和扩展的实现非常好; Hardin曾在Stata Corp.工作,编写了许多这样的命令,并为三明治估算器)。


您好StasK,非常感谢!我发现回归建模可以满足我的需求。它们涵盖了多少GLM?我还看到您对贝叶斯推理的引用是我经常发现推荐的标准引用。在您看来,他们要遵循的难易程度如何(就像水平太高一样)?另外,您是否看过《广义线性模型》一书?作者之一是JA Nelder。另外,我也想购买有关统计模型的这本书。您对此有什么想法吗?谢谢!
阿伦(Arun)

我还没有看过这本弗里德曼的书。这是一个非常有趣的过程,尽管它的严格程度似乎很轻,但我不确定对此是否满意。(一本关于数学的书很轻,谈论了没有矩阵代数的回归问题,但是非常严格地讲科学严谨,是Angrist和Pischke撰写的Mostly Harmless Econometrics,如果您使用因果模型,那本书是必须的。)我真的不知道您的数学/统计背景,所以我很难判断这些书是否很难。一些贝叶斯书籍可能是;他们倾向于假设您已经了解MLE和GLM。
StasK,2011年

1
我已经更新了回复,以包括McCullach和Nelder参考。
StasK,2011年

我是电子工程师。成为生物信息学家。我上过统计学(用于传播理论),概率和随机过程的课程,对微积分(虽然有点生锈)和线性代数感到很满意。当然,这些大多是本科生级别的。。。我的目标是在概念上保持合理(更多的几何解释,方法的理解以及最重要的目的)等……当然,我不介意数学,如果它这些食谱都附有。再次感谢您的建议!
阿伦(Arun)

3

这些书解释的是好东西,但不是OP所要求的。
StasK,2011年

@StasK,您能否解释一下以上书籍中没有的内容?
Biostat 2011年

我从HTF教过,从中教给我的是关于基函数,有效自由度,模型选择,套索,交叉验证等的知识。OP感兴趣的MLE和GLM最多只能提及。可以假设统计学专业的学生从他们的一般统计学培训中了解了这些知识,或者CS学生将使用SVM而不是逻辑回归作为对二进制结果数据的下意识反应。在某种意义上,仅在贝叶斯决策规则是最优的范围内才提到贝叶斯的东西。没有MCMC或变态。
StasK 2011年

您读过《生物信息学的统计方法》这本书吗?
Biostat 2011年

@biostat,不,我没有。我不在生物信息学领域工作,但我知道这是一个稍微不同的世界。因此,我无法提出任何合理的建议。在我看来,涉及GLM,GEE,纵向和生存模型等模型的生物统计学分支与计量经济学有更多共同点(因此,Wooldridge撰写的有关横截面和面板数据模型的书可能是一些从事生物统计学工作的人的不错的建议使用这些模型),而不是统计遗传学,家庭错误率控制和数据挖掘,这似乎是您的专业领域。
StasK,2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.