我总是很难向没有统计背景的听众解释统计技术。如果我想向此类受众解释什么是GLM(不抛出统计术语),那么最佳或最有效的方法是什么?
我通常用三个部分来解释GLM:(1)作为响应变量的随机分量,(2)作为线性预测变量的系统分量,以及(3)作为连接(1)的“关键”的链接函数(2)。然后,我将给出线性或逻辑回归的示例,并说明如何根据响应变量选择链接函数。因此,它充当连接两个组件的关键。
我总是很难向没有统计背景的听众解释统计技术。如果我想向此类受众解释什么是GLM(不抛出统计术语),那么最佳或最有效的方法是什么?
我通常用三个部分来解释GLM:(1)作为响应变量的随机分量,(2)作为线性预测变量的系统分量,以及(3)作为连接(1)的“关键”的链接函数(2)。然后,我将给出线性或逻辑回归的示例,并说明如何根据响应变量选择链接函数。因此,它充当连接两个组件的关键。
Answers:
如果听众真的没有统计背景,我想我会尝试简化解释。首先,我将在板上绘制一条带有一条线的坐标平面,如下所示:
参加讲座的每个人都会熟悉简单直线y = m x + b的方程式,因为这是在小学时学到的。因此,我将在图纸旁边显示它。但是,我会向后写,就像这样:
我想说这个方程式是简单线性回归的一个例子。然后,我将解释您(或计算机)如何使这样的方程式适合数据点的散点图,如该图所示:
我想说的是,我们正在使用正在研究的生物体的年龄来预测它的大小,并且我们得到的线性回归方程(如图所示)可以用来预测生物体的大小。如果我们知道它的年龄。
回到我们的一般方程m x + b = y,我会说x是可以预测 y的变量,因此我们将其称为预测变量。y通常称为响应。
然后,我将再次说明这是一个简单的线性回归方程的示例,并且实际上还有更复杂的变体。例如,在称为logistic回归的变量中,仅允许y为1或0。如果您试图预测“是”或“否”的答案(例如某人是否患有疾病),则可能要使用这种类型的模型。另一个特殊的变化称为Poisson回归,用于分析“计数”或“事件”数据(除非真正必要,否则我不会进一步研究它)。
然后,我将解释线性回归,逻辑回归和泊松回归实际上都是更通用方法(称为“广义线性模型”)的所有特殊示例。“广义线性模型”的妙处在于,它们使我们能够使用“响应”数据,该数据可以取任何值(例如线性回归中的有机体大小),仅取1或0(例如某人是否具有Logistic回归中的疾病),或进行离散计数(例如Poisson回归中的事件数)。
然后,我要说的是,在这些类型的方程式中,x(预测变量)通过统计学家称为“链接函数”的东西连接到y(响应)。在x与y不呈线性关系的情况下,我们使用这些“链接函数”。
无论如何,这是我在这个问题上的两分钱!也许我提出的解释听起来有些胡闹和愚蠢,但是如果此练习的目的只是为了使“要旨”传达给听众,那么像这样的解释也许还不错。我认为以直观的方式解释该概念非常重要,并且避免乱扔诸如“随机组件”,“系统组件”,“链接函数”,“确定性”,“登录函数”等词语。与真正没有统计学背景的人(例如典型的生物学家或医师)交谈时,他们的眼睛只会注视着听到这些话。他们不知道什么是概率分布,他们从未听说过链接函数,也不知道什么是“ logit”
在您对非统计受众的解释中,我还将重点介绍何时使用哪种模型。我可能会谈谈允许您在方程式的左侧包含多少个预测变量(我听说过一些经验法则,比如您的样本量除以十)。包括一个包含数据的示例电子表格,并向听众解释如何使用统计软件包生成模型,也将是很好的。然后,我将逐步查看该模型的输出,并尝试解释所有不同字母和数字的含义。生物学家对此一无所知,更感兴趣的是学习什么时候使用哪种测试,而不是真正了解SPSS GUI背后的数学知识!
如果您对我提出的解释有任何意见或建议,我将不胜感激,尤其是如果有人注意到错误或想出一种更好的解释方式!
我不会将响应称为随机组件。它是确定性部分和随机性部分的组合。
到可以取的值在整个实线的变量。在这种情况下,链接函数使响应与预测变量兼容,因此可以使其成为预测变量加上随机分量的线性函数。
我会解释说有时候我需要预言。例如,房屋价格给出了一些有关它的信息。说说它的大小,位置,建筑的年代等。我想将其作为一个模型,考虑到这些因素的影响来预测价格。
现在以一个子示例为例,我只考虑房子的大小。这意味着没有其他因素影响价格。可能是在比较同一地点,大约在同一时间建造的房屋等情况。或者可能是我不想让自己复杂化,因此希望现实生活符合我想不到的。继续前进,我建立一个模型,其中列出了类似物业的尺寸和相应价格(例如,来自最近发生的销售……但是这将使非出售房屋产生严重偏差,从而影响价格)的房屋,但是让我们忽略它)。
现在,我看到一栋100平方英尺的房子要花费100万美元(算了吧,这是一个简化的示例)。因此,自然地,您会期望200平方英尺的房屋价格翻倍。这就是我们所说的“线性模式”。当然,当我们收集数据并绘制大小与价格的关系图时,我们发现它并不是精确的两倍。但是肯定有增加的趋势。
因此,我尝试量化趋势。每增加一平方英尺会增加多少?那就是线性回归。
INSERT术语映射并继续使用统计概念。解释随机和系统成分的一种方法可能是,您忘记建模或无法衡量的任何东西都是随机的。无论您能做的是系统的。(例如,假设现在是2008年,而您想出售房屋。)
该模型的基础假设是散点图应看起来像杆。这就是X和Y均为“正常”。并都有相似的方差。
如果不是这种情况,请输入GLM。现在说明链接功能。
它经过简化,但是应该作为介绍。
您可以输入GLM和析因模型的历史记录。Fisher要求事情开始一起变化,而此框架适用于这种复杂性。
希望这可以帮助...