GLM族代表响应变量或残差的分布?


13

我一直在与几个实验室成员讨论这个问题,我们已经到了多个来源,但仍然没有答案:

当我们说一个GLM有一个泊松族时,我们说的是在谈论残差或响应变量的分布吗?

争论点

  1. 阅读文章也指出,GLM的假设是观察的统计独立性,链接和方差函数的正确规范(这让我想起了残差,不响应变量),计量正确的比例为响应变量且缺乏单点的不当影响

  2. 这个问题有两个答案,每个答案都有两点,出现的第一个是关于残差的,第二个是关于响应变量的,是吗?

  3. 在此博客文章中,当谈到假设时,他们说“ 残差的分布可以是其他分布,例如二项式

  4. 在年初这一章他们说,错误的结构必须是泊松,但残差必将有积极和消极的价值观,怎么可能泊松?

  5. 这个问题经常在诸如此类的问题中被引用,以使它们重复,但没有公认的答案

  6. 这个问题的答案谈论的是回应而不是残差

  7. 这个从Pensilvania大学课程说明他们谈论的假设,而不是残差响应变量

Answers:


18

glm模型的family参数确定响应(而不是残差)的条件分布的分布族(模型除外)。

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

β0+xiTβϵi

因此,对于所有其他族,我们使用上面第一个显示的方程式的定义。即,响应的条件分布。因此,不,泊松回归中的残差(无论定义如何)都没有泊松分布。


13

除了Kjetil的出色回答外,我想添加一些具体示例来帮助阐明条件分布的含义,这可能是一个难以捉摸的概念。

假设您从一个湖中随机抽取了100条鱼,并有兴趣观察鱼的年龄如何影响几个结果变量:

  1. 鱼的重量(Weight);
  2. 鱼是否长于30厘米;
  3. 鱼鳞的数量。

第一个结果变量是连续的,第二个是二进制变量(0 =鱼的长度不超过30厘米; 1 =鱼的长度不超过30厘米),第三个是计数变量。

简单线性回归

年龄如何影响体重?您将准备一个简单的线性回归模型,其形式为:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

简单二元Logistic回归

年龄如何影响鱼是否长于30厘米?您将准备一个简单的二进制Logistic回归模型,其形式为:

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

简单泊松回归

年龄如何影响鱼鳞的数量?您将制定一个简单的Poisson回归模型,其形式为:

log(μ)=β0+β1Age

μβ0+β1Age

总而言之,条件分布表示模型中包含的预测变量的特定值的结果值的分布。上面说明的每种类型的回归模型都会在给定年龄的结果变量的条件分布上施加某些分布假设。基于这些分布假设,模型将继续公式化:(1)条件分布的均值如何随年龄变化(简单线性回归);(2)条件分布的对数变换后的均值如何随年龄变化年龄(简单的二元logistic回归)或(3)条件分布的对数转换均值随年龄而变化。

对于每种类型的模型,可以定义相应的残差以进行模型检查。特别是,可以为logistic和Poisson回归模型定义Pearson和偏差偏差。


2
出色的答案。感谢你们俩。我从未意识到“实际”残差在一般GLM框架中从未像在正态分布情况下那样真正显式。
mlofton '18 -10-30

1
@mlofton:谢谢您的客气话。一个很好的问题邀请了很好的答案。我们都受益于这种知识交流。
Isabella Ghement

4
我使用GLM的时间很长(像10年前一样长达一两年),这始终是我的困惑,但直到被如此清楚地问及如此清晰的解释,我才知道这是我的困惑。因此,有时混乱意味着甚至无法提出正确的问题。再次感谢。
mlofton '18 -10-30

1
你是绝对正确的!困惑是学习的一部分-当我们在某事上挣扎一段时间时,当我们突然偶然发现一个清晰的解释时,我们就会准备好更好地理解它。
Isabella Ghement

1
非常感谢您的出色回答@IsabellaGhement
Patrick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.