您将如何向没有统计背景的人们解释广义线性模型?


16

我总是很难向没有统计背景的听众解释统计技术。如果我想向此类受众解释什么是GLM(不抛出统计术语),那么最佳或最有效的方法是什么?

我通常用三个部分来解释GLM:(1)作为响应变量的随机分量,(2)作为线性预测变量的系统分量,以及(3)作为连接(1)的“关键”的链接函数(2)。然后,我将给出线性或逻辑回归的示例,并说明如何根据响应变量选择链接函数。因此,它充当连接两个组件的关键。


听众有什么样的背景?向数学家或生物学家解释GLM是非常不同的。

1
几乎没有统计学背景的数学家@Procrastinator。但是您的观点很不错:对目标受众有一个更清晰的了解将有助于使答复保持一致和集中。肯,您介意编辑问题以对此进行扩展吗?
ub

1
我明白您的意思,@ Procrastinator,但我希望能为所有人(数学家和/或生物学家)提供一个易于理解的答案,因为通常,如果我没有数学或生物学背景(是这种情况),无论如何,我都不知道如何向他们解释GLM。
肯(Ken)

4
我认为重要的是要牢记,即使在许多一级大学中,您也无需修过统计学课就能获得生物学的学士学位,硕士学位或什至博士学位。我的生物化学学位需要两个学期的入门微积分和一个学期的微分方程。这些课程的内容很快就被忘记了,因为许多学生将不再使用这些技能!因此,我确实认为有必要对典型的非统计学家的解释进行深入研究。
亚历山大

添加到以下答案的评论;如果您可以遍历一条直线(即链接函数和线性预测变量),那么与高效的反方差加权的联系就不那么容易沟通了;我们只是想增加精确的贡献,而减少其余的。这样可以避免对结果的随机性说任何过于技术性的事情。NB GLM被设计为(仅)可以使用IWLS进行MLE的模型,因此上述思考它们的方式抓住了它们实际上有用的大部分原因。
来宾

Answers:


25

如果听众真的没有统计背景,我想我会尝试简化解释。首先,我将在板上绘制一条带有一条线的坐标平面,如下所示:

y = mx + b

参加讲座的每个人都会熟悉简单直线y = m x + b的方程式,因为这是在小学时学到的。因此,我将在图纸旁边显示它。但是,我会向后写,就像这样: y=mx+b

 mx+b=y

我想说这个方程式是简单线性回归的一个例子。然后,我将解释您(或计算机)如何使这样的方程式适合数据点的散点图,如该图所示:

散点图

我想说的是,我们正在使用正在研究的生物体的年龄来预测它的大小,并且我们得到的线性回归方程(如图所示)可以用来预测生物体的大小。如果我们知道它的年龄。

回到我们的一般方程m x + b = y,我会说x是可以预测 y的变量,因此我们将其称为预测变量。y通常称为响应 mx+b=y

然后,我将再次说明这是一个简单的线性回归方程的示例,并且实际上还有更复杂的变体。例如,在称为logistic回归的变量中,仅允许y为1或0。如果您试图预测“是”或“否”的答案(例如某人是否患有疾病),则可能要使用这种类型的模型。另一个特殊的变化称为Poisson回归,用于分析“计数”或“事件”数据(除非真正必要,否则我不会进一步研究它)。

然后,我将解释线性回归,逻辑回归和泊松回归实际上都是更通用方法(称为“广义线性模型”)的所有特殊示例。“广义线性模型”的妙处在于,它们使我们能够使用“响应”数据,该数据可以取任何值(例如线性回归中的有机体大小),仅取1或0(例如某人是否具有Logistic回归中的疾病),或进行离散计数(例如Poisson回归中的事件数)。

然后,我要说的是,在这些类型的方程式中,x(预测变量)通过统计学家称为“链接函数”的东西连接到y(响应)。在x与y不呈线性关系的情况下,我们使用这些“链接函数”。

无论如何,这是我在这个问题上的两分钱!也许我提出的解释听起来有些胡闹和愚蠢,但是如果此练习的目的只是为了使“要旨”传达给听众,那么像这样的解释也许还不错。我认为以直观的方式解释该概念非常重要,并且避免乱扔诸如“随机组件”,“系统组件”,“链接函数”,“确定性”,“登录函数”等词语。与真正没有统计学背景的人(例如典型的生物学家或医师)交谈时,他们的眼睛只会注视着听到这些话。他们不知道什么是概率分布,他们从未听说过链接函数,也不知道什么是“ logit”

在您对非统计受众的解释中,我还将重点介绍何时使用哪种模型。我可能会谈谈允许您在方程式的左侧包含多少个预测变量(我听说过一些经验法则,比如您的样本量除以十)。包括一个包含数据的示例电子表格,并向听众解释如何使用统计软件包生成模型,也将是很好的。然后,我将逐步查看该模型的输出,并尝试解释所有不同字母和数字的含义。生物学家对此一无所知,更感兴趣的是学习什么时候使用哪种测试,而不是真正了解SPSS GUI背后的数学知识!

如果您对我提出的解释有任何意见或建议,我将不胜感激,尤其是如果有人注意到错误或想出一种更好的解释方式!


4
并不是每个人都熟悉直线的方程式。甚至不是所有研究生,也不是所有拥有博士学位的人。
彼得·弗洛姆

6
我的意思是,我确定世界上存在一个不知道直线方程的研究生,但是假设您想向其解释广义线性模型的受众至少会对高线有一半的了解学校级代数!:-o
亚历山大

我同意你的看法,亚历山大对我来说很自然。我不会过多(或为时过早)关注glm的“ g”,也不会在随机与固定之间进行区分。当然,这取决于您必须解释所有这些的时间。
多米尼克·科托伊斯

Y=αX+βα

10

我不会将响应称为随机组件。它是确定性部分和随机性部分的组合。

log(p/(1p))[0,1]到可以取的值在整个实线的变量。在这种情况下,链接函数使响应与预测变量兼容,因此可以使其成为预测变量加上随机分量的线性函数。


3
我对“响应”的这种用法感到好奇。我们的目标受众可能会理解为是指观察到的响应:是或否,0或1等。在逻辑回归模型,我们的东西没有观察到(永不可直接观察到); 即,响应的假设机会。“链接”仅是将这些机会表示为对数赔率而不是概率的问题。Logistic回归假设对数几率随IV线性变化。(我对“模型”,“假设”和“假设”的使用,而不是“是”和“预测”,也表示了不同的认知和本体论观点。)
笨拙

1
好点的胡扯。
Michael R. Chernick

-2

我会解释说有时候我需要预言。例如,房屋价格给出了一些有关它的信息。说说它的大小,位置,建筑的年代等。我想将其作为一个模型,考虑到这些因素的影响来预测价格。

现在以一个子示例为例,我只考虑房子的大小。这意味着没有其他因素影响价格。可能是在比较同一地点,大约在同一时间建造的房屋等情况。或者可能是我不想让自己复杂化,因此希望现实生活符合我想不到的。继续前进,我建立一个模型,其中列出了类似物业的尺寸和相应价格(例如,来自最近发生的销售……但是这将使非出售房屋产生严重偏差,从而影响价格)的房屋,但是让我们忽略它)。

现在,我看到一栋100平方英尺的房子要花费100万美元(算了吧,这是一个简化的示例)。因此,自然地,您会期望200平方英尺的房屋价格翻倍。这就是我们所说的“线性模式”。当然,当我们收集数据并绘制大小与价格的关系图时,我们发现它并不是精确的两倍。但是肯定有增加的趋势。

因此,我尝试量化趋势。每增加一平方英尺会增加多少?那就是线性回归。

INSERT术语映射并继续使用统计概念。解释随机和系统成分的一种方法可能是,您忘记建模或无法衡量的任何东西都是随机的。无论您能做的是系统的。(例如,假设现在是2008年,而您想出售房屋。)

该模型的基础假设是散点图应看起来像杆。这就是X和Y均为“正常”。并都有相似的方差。

如果不是这种情况,请输入GLM。现在说明链接功能。

它经过简化,但是应该作为介绍。

您可以输入GLM和析因模型的历史记录。Fisher要求事情开始一起变化,而此框架适用于这种复杂性。

希望这可以帮助...


1
感谢您的努力,但在您完成材料编写之前,无需发布材料。以目前的形式,它最终变成稀疏的神秘笔记的方式会让读者失望。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.