Questions tagged «biostatistics»

统计科学应用于生物学或医学数据的分析。

5
连续变量和分类(标称)变量之间的相关性
我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。ρρ\rho 在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?ρρ\rho 双峰系数会是正确的选择吗?

3
仅了解最小值/最大值的数据的统计方法
是否有统计信息的一个分支来处理其确切值未知的数据,但是对于每个人,我们都知道该值的最大值或最小值? I suspect that my problem stems largely from the fact that I am struggling to articulate it in statistical terms, but hopefully an example will help to clarify: 假设存在两个相互连接的总体AAA和BBB,以便在某个时候成员AAA可以“转换”为BBB,但不可能相反。过渡时间是可变的,但不是随机的。例如,AAA可以是“没有后代的个体”,而BBB “至少有一个后代的个体”。我对这种进展发生的年龄感兴趣,但我只有横截面数据。对于任何给定的个体,我可以找出它们是否属于AAA或BBB。我也知道这些人的年龄。对于人群A中的每个人AAA,我知道过渡年龄将比其当前年龄更大。同样,对于B的成员BBB,我知道过渡年龄比当前年龄小。但是我不知道确切的值。 假设我还有其他一些要与过渡年龄进行比较的因素。例如,我想知道一个人的亚种或体型是否会影响第一个后代的年龄。我绝对有一些有用的信息可以回答这些问题:平均而言,在中的个体中AAA,年龄较大的个体将有一个较晚的过渡期。但是这些信息并不完美,特别是对于年轻人而言。反之亦然人口BBB。 Are there established methods to deal with this sort of data? I do not necessarily need a full …

4
在对连续数据建模时,泊松分布如何工作,是否会导致信息丢失?
一位同事正在为她的论文分析一些生物学数据,并得出一些令人讨厌的异方差(下图)。她正在使用混合模型对其进行分析,但仍然无法处理残差。 对数转换响应变量可以清除内容,并且根据对该问题的反馈,这似乎是一种适当的方法。但是,最初,我们曾认为将转换变量与混合模型一起使用存在问题。事实证明,我们一直在误解Littell&Milliken(2006)的SAS for Mixed Models中的一个陈述,该陈述指出了为什么不适合转换计数数据然后使用正常的线性混合模型进行分析的原因(下面有完整的引号) 。 一种也可以改善残差的方法是使用具有Poisson分布的广义线性模型。我已经读过Poisson分布可用于对连续数据进行建模(例如,如本文中所讨论的),并且stats包允许这样做,但是我不了解模型适合时的情况。 为了理解如何进行基础计算,我的问题是:当您将Poisson分布拟合到连续数据时,1)是否将数据四舍五入到最接近的整数2)这样做会导致信息丢失,并且3)何时(如果有的话)将Poisson模型用于连续数据是否合适? Littel&Milliken 2006,第529页,“转换[count]数据可能会适得其反。例如,转换可能会使随机模型效应的分布或模型的线性变形。更重要的是,转换数据仍然留有可能性。负预测计数。因此,高度怀疑使用转换数据的混合模型进行推断。”

9
统计和生物统计学之间有什么区别?
我想到,尽管多年来我就统计学和生物统计学之间的差异整理了一些想法,但从未听说过正式的解释。这两个学科之间的区别是什么(当前)?为什么这种区别首先出现? 编辑:我在最初的问题中不够具体。我了解到生物统计学是生物医学领域中统计学的应用和发展。但是,区别的一些具体示例是什么?例如,这两个领域的研究生教育有何区别?为这两个学科设立不同的学术部门的目的是什么(我在其他领域没有看到这种区别)?

4
在公共卫生政策研究中哪些案例研究滥用了不可靠/混杂/无效的研究或模型?
我正在起草有关当前混淆数据的当前公共卫生问题的文献综述: 在公共卫生/流行病学教育中使用哪些常见的历史案例研究,而在公共卫生政策和立法中有意或错误地使用了无效或混杂的关系或推论? 1960年代的汽车死亡人数激增以及随后由政府主导的基于证据的研究,该研究确定了安全带并最终要求安全气囊是法律所必需的,这是HOW公共卫生政策应由统计学上有效的推论和模型所驱动的一个很好的例子。 我更多地在寻找相反类型的案例(科学性很差,匆忙制定政策)。但是,如果没有别的什么,我想学习更多类似于先前为成功实现公共卫生利益而进行的有力研究的案例的案例。 我想以这些为例来说明基于证据的统计公共卫生研究对制定政策的重要性。

2
计算RNA序列和ChIP芯片数据集之间的基因列表重叠的可能性
希望这些论坛上的人可以帮助我解决基因表达研究中的这一基本问题。 我对实验和对照组织进行了深度测序。然后,我获得了超出对照的实验样品中基因的倍数富集值。参考基因组有〜15,000个基因。与对照相比,我感兴趣的样本中的15,000个基因中有3,000个富集到某个临界值以上。 因此:A =总基因种群= 15,000 B = RNA-Seq富集的亚群= 3,000。 在先前的ChIP芯片实验中,我发现了400个被ChIP芯片丰富的基因。在400个ChIP芯片基因中,有3,000个富集RNA-Seq转录本的组中有100个基因。 因此:C =芯片上富含芯片的基因总数= 400。 仅凭偶然机会,我的100个ChIP芯片基因就会被RNA-Seq富集的可能性是多少?换句话说,最谨慎的方法是计算我观察到的B和C(100个基因)之间的重叠是否比仅凭偶然获得的重叠更好?到目前为止,根据我的读物,测试这一点的最佳方法是使用超几何分布。 我使用了一个在线计算器(stattrek.com),使用以下参数设置了超几何分布测试:-流行数量= 15,000-总体成功次数= 3,000-样本数量= 400,-成功数量= 100。对于超几何概率P(x = 100)= 0.00224050636447747我得到以下信息 B和C之间重叠的实际基因数量=100。这是否比偶然碰碰更好?如果任何一个基因被富集的机会是1:5(15,000个中的3,000个),看起来就不是这样。这就是为什么我不知道我上面计算的P(x = 100)是0.0022的原因。这等于偶然发生重叠的机会为0.2%。这不应该更高吗? 如果我从15,000个大列表中抽取了400个随机基因,那么这些基因中的任何80个都将被偶然地丰富(1:5)。实际上重叠的基因数量是100,所以这比偶然的情况好一点。 我还尝试提出一种使用R中的hyper或phyper函数的解决方案(使用我在另一篇文章中看到的):A =基因组中的所有基因(15,000)B =富含RNA-Seq的基因(3,000)C = ChIP芯片富集基因(400)这是R输入/输出(改编自先前的stackexchange帖子): > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, sample2) [1] 4.431784e-40 …

2
该 -test VS的 -试验比较2组患感冒的几率
我刚刚读了一篇颇受人尊敬的(受欢迎的)科学杂志(德国PM,02/2013,第36页),其中讲述了一个有趣的实验(不幸的是,没有资料来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但是所提供的信息足以重现统计检验。 研究人员想知道,在寒冷的天气中变冷是否会增加患感冒的几率。因此,他们将180名学生随机分为两组。一组不得不将脚放进冷水中20分钟。另一个人穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为很有趣。除了道德问题。 无论如何,经过5天的治疗,治疗组中的13名学生患了感冒,但只有5名学生保持着鞋凉。因此,该实验的优势比为2.87。 鉴于样本量很小,我开始怀疑这种差异是否可能很大。所以我进行了两次测试。 首先,使用正态逼近对比例相等进行简单测试。该测试的,。我的猜测是,这就是研究人员测试过的。这确实很重要。但是,由于正态近似,如果没有记错的话,此z检验仅在大样本中有效。此外,患病率还很小,我想知道这是否不会影响效果置信区间的覆盖率。p = 0.0468z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 因此,我的第二次尝试是对卡塔尔独立性进行卡方检验,包括蒙特卡罗模拟和标准皮尔逊卡方。在这里,我发现p值都约为。p=.082p=.082p=.082 现在,所有这些都不会让您对结果感到放心。我想知道是否有更多选择来测试此数据,以及您对这两项测试的想法是什么(特别是第一个重要测试的假设)

1
等价的零假设
假设是来自正态分布的简单随机样本。X1,X2,...,XnX1,X2,...,XnX_1, X_2, \, ... \, , X_n(μ,σ2)(μ,σ2)(\mu,\sigma^2) 我有兴趣进行以下假设检验: 对于给定的常数。H0:|μ|≤cH1:|μ|&gt;c,H0:|μ|≤cH1:|μ|&gt;c, H_0: | \mu| \le c \\ H_1: |\mu| > c, c&gt;0c&gt;0c > 0 我正在考虑以与通常的生物等效性测试情况类似的方式执行两个单侧检验(TOST),其中null为代替,但是我不知道这是否有意义或正确。ttt|μ|≥c|μ|≥c|\mu| \ge c 我的想法是执行单面测试 和 并且如果值之一小于显着性水平拒绝全局零假设。H01:μ≤cH11:μ&gt;cH01:μ≤cH11:μ&gt;c H_{01} : \mu \le c \\ H_{11} : \mu > c H02:μ≥−cH12:μ&lt;−c,H02:μ≥−cH12:μ&lt;−c, H_{02} : \mu \ge -c \\ H_{12} : \mu < …

3
将BMI指数定义为体重/身高的统计原因是什么?
也许这个问题在医学上是有答案的,但是是否有统计上的原因将BMI指数计算为?为什么不例如仅?我的第一个想法是,它与二次回归有关。体重/身高体重/ 身高2weight/height2\text{weight}/\text{height}^2体重/ 身高weight/height\text{weight}/\text{height} 真实数据样本(200个体重,身高,年龄和性别的个体): structure(list(Age = c(18L, 21L, 17L, 20L, 19L, 53L, 27L, 22L, 19L, 27L, 19L, 20L, 19L, 20L, 42L, 17L, 23L, 20L, 20L, 19L, 20L, 19L, 19L, 18L, 19L, 15L, 19L, 15L, 19L, 21L, 60L, 19L, 17L, 23L, 60L, 33L, 24L, 19L, 19L, 22L, 20L, 21L, 19L, 19L, …

2
应用学术期刊文章中统计部分的好例子
我是一名在应用领域工作的生物统计学家,我负责为我合作的论文撰写统计学方法部分。在阅读许多学术论文时,我遇到了许多统计数据写得不好的例子(大多数是无聊的,缺乏信息性的,缺乏精确性,细节和对所用方法的理解)。 无论使用何种主题和复杂的统计方法,在应用研究文章中有哪些写得好的统计章节的好例子? 如何定义“写得好”是主观的,但是如果描述得很清楚,我将描述写得很好的统计部分,给出(或似乎给出)分析方式的全貌,解决分析过程中所做的假设,并将统计过程纳入论文流程。 以下是一些我认为统计数据不错的论文示例: BCG疫苗接种可降低接种疫苗的and和未接种疫苗的C幼崽中结核感染的风险 原发性经皮冠状动脉介入治疗急性ST段抬高型心肌梗死的死亡率预测模型:急性心肌梗死试验中派瑞单抗的评估结果 其他?也欢迎对“良好”统计部分应包括的内容进行思考。

1
应该使用哪种统计检验来检验基因清单的丰富性?
我进行了一项实验,以测试细胞对某种DNA损伤剂的敏感性。我们发现了270个对药物特别敏感的基因,分析的基因总数为3668。在270个敏感基因中,有38个被归类为“ DNA修复基因”。如果基因组中包含“ DNA修复基因”的数目为112,而基因组中的基因总数为3668,那么敏感基因是否富含DNA修复基因?应该使用哪种统计检验?如果您还可以告诉我一些在线计算p值的工具,我们将不胜感激。

2
使用Poisson回归估算二元数据中调整后的风险比率
我对估算调整后的风险比率很感兴趣,类似于人们如何使用logistic回归估算调整后的优势比率。一些文献(例如this)表明,将泊松回归与Huber-White标准误差一起使用是基于模型的方法 我没有找到关于调整连续协变量如何影响这一点的文献。下面的简单模拟表明此问题并非那么简单: arr &lt;- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b &lt;- runif(n)&lt;p x &lt;- rnorm(n) pr &lt;- exp( log(BLR) + log(RR)*b + ce*x) y &lt;- runif(n)&lt;pr model &lt;- glm(y ~ b + x, family=poisson) B[i] &lt;- coef(model)[2] } return( mean( exp(B), na.rm=TRUE ) ) } set.seed(1234) arr(.3, …

3
给初学者的建议(生物统计学入门)
我今年秋天在教我的第一堂课(生物统计学入门)。有人对更好地统计教学有什么建议吗?也许您希望您的第一任老师曾经使用过一些例子?我正在使用Pagano和Gauvreau的《生物统计学原理》。 编辑:详细信息 该课程是在线课程,每周两次,每次1.5小时。学生们将在观看幻灯片和笔迹演示时(无聊?)和一些平板电脑/笔动作(令人兴奋?)混合在一起时听我的演讲。本课是非常初学者的统计资料,主要教给生物医学工程师(本科生)和一些非统计资料研究生(护理,医学生,公共卫生等) 教学大纲: 1)什么是生物统计学? 2)概率 3)诊断测试(例如,特异性,敏感性,ROC曲线。通常在此处b / c,它使我们可以应用从概率中学到的一些知识,例如贝叶斯规则) 4)发行 5)抽样分布 6)置信区间 7)假设检验(一个样本,两个样本,比例) 8)功效和样本量计算 9)非参数方法 10)偶然性表(卡方检验,渔民检验,麦克内马尔检验,相对风险,优势比) 11)相关 主要目的是让学生学习统计推断的核心概念,例如,您如何量化“哪种药更好?”这一问题。类似的东西。 对于上面列出的部分,您是否有任何建议或警告来教他们。 例如:在推断比例时,我已经看到/听说过许多不同的方法将学生介绍给wald测验和score测验。如果教学效果不佳,学生很容易感到困惑(“为什么要使用其中两个?”,“我要使用哪个?”,“它们对我来说看起来是一样的。”)有些老师甚至不提这些名字而只是说:这样做是为了置信区间,而另一件事是进行假设检验。您将如何解决这个问题或其他类似问题?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.