如果您不知道要为其获取参数的函数,那么回归模型有什么用?
我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对约1000名母亲的调查,并控制了其他因素,并使用了对数线性模型。
现在这是否意味着他们认为确定糖尿病可能性的所有因素都符合一个很好的功能(可能是指数形式),可以很好地转化为具有对数的线性模型,并且证明母乳喂养的女性是否具有统计学意义?
我肯定会丢失一些东西,但是,他们到底怎么知道这个模型的?
如果您不知道要为其获取参数的函数,那么回归模型有什么用?
我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对约1000名母亲的调查,并控制了其他因素,并使用了对数线性模型。
现在这是否意味着他们认为确定糖尿病可能性的所有因素都符合一个很好的功能(可能是指数形式),可以很好地转化为具有对数的线性模型,并且证明母乳喂养的女性是否具有统计学意义?
我肯定会丢失一些东西,但是,他们到底怎么知道这个模型的?
Answers:
它有助于将回归视为真实形式的线性近似。假设真正的关系是
答案的另一面是mpiktas答案的补充,但到目前为止尚未提及:
“他们没有,但是只要他们采用某种模型结构,就可以根据数据检查它 ”。
可能出错的两个基本问题是:函数的形式,例如在日志中甚至不是线性的。因此,您首先要针对期望值绘制适当的残差。或选择条件分布,例如相对于泊松而言,观察到的计数过度分散。因此,您需要针对同一个模型的负二项式版本进行测试,或者查看是否额外的协变量导致了额外的变化。
您还需要检查异常值,有影响力的观察值以及许多其他情况。Cameron and Trivedi 1998年第5章提供了一个有关检查这类模型问题的合理地方。
如果这些诊断表明模型无法拟合数据,则可以更改模型的相关方面,然后重新开始整个过程。
一个很好的第一个问题!我同意mpiktas的回答,即简短的回答是“他们没有,但是他们希望能够近似给出正确答案的正确模型”。
用流行病学的术语来说,这种模型不确定性是所谓的“ 残余混杂 ”的来源之一。请参阅史蒂夫·西蒙(Steve Simon)的页面“什么是残留混杂?” 以获得简短的简短说明,或者Heiko Becher在1992年发表的《医学统计学》中的论文(需要订阅)以进行更长时间,更数学的处理;或者Fewell,Davey Smith&Sterne的最新论文在《美国流行病学杂志》中(需要订阅)。 )。
这是小效应流行病学很难且研究结果经常引起争议的原因之一-如果测得的效应大小很小,则很难排除残留的混杂因素或其他偏见来源作为解释。
乔治·博克斯(George Box)有句著名的名言:“基本上,所有模型都是错误的,但有些模型是有用的” 。在拟合这样的模型时,我们尝试(或应该)考虑数据生成过程以及物理,现实世界,响应和协变量之间的关系。我们尝试在适合数据的模型中表达这些关系。或者换一种说法,就是与数据一致。这样就产生了一个经验模型。
是否有用,将在以后确定-例如,对于不习惯使用该模型的女性,它能否提供良好,可靠的预测?模型系数是否可以解释并具有科学用途?效果大小有意义吗?
您已经获得的答案是很好的答案,但是我将从流行病学家的角度给出(希望)互补的答案。我对此确实有三个想法:
首先,他们没有。另请参阅:所有模型都错误,某些模型很有用。目标不是产生一个确定的数字,该数字被视为基础功能的“真相”。目标是对该功能进行估计,并对其周围的不确定性进行量化,这是对基础功能的合理且有用的近似。
对于效果较大的措施尤其如此。如果“真实”关系为2.5或3.2,则研究发现“相对”风险为3.0的“拿走”消息实际上并没有什么不同。正如@onestop所提到的,用较小的效果度量估算值确实会变得更加困难,因为从健康和政策的角度来看,0.9、1.0和1.1之间的差异可能很大。
其次,大多数流行病学论文都隐藏着一个过程。那是实际的模型选择过程。我们倾向于报告最终的模型,而不是我们考虑的所有模型(因为这很累,如果没有别的话)。有很多模型构建步骤,概念图,诊断,拟合统计,敏感性分析,在计算机上宣誓就职以及在白板上乱涂乱画,甚至涉及很小的观察性研究的分析。
因为当你正在做的假设,其中许多人也可以检查的假设。
第三,有时候我们不这样做。然后我们去参加会议并就此进行辩论;)
如果您对流行病学的各个领域以及我们如何进行研究感兴趣,那么最好的起点可能是罗斯曼,格陵兰和拉什的《现代流行病学》第三版。这是有关Epi研究如何进行的适度技术性和非常好的概述。