除了Kjetil的出色回答外,我想添加一些具体示例来帮助阐明条件分布的含义,这可能是一个难以捉摸的概念。
假设您从一个湖中随机抽取了100条鱼,并有兴趣观察鱼的年龄如何影响几个结果变量:
- 鱼的重量(Weight);
- 鱼是否长于30厘米;
- 鱼鳞的数量。
第一个结果变量是连续的,第二个是二进制变量(0 =鱼的长度不超过30厘米; 1 =鱼的长度不超过30厘米),第三个是计数变量。
简单线性回归
年龄如何影响体重?您将准备一个简单的线性回归模型,其形式为:
Weight=β0+β1∗Age+ϵ
ϵσβ0+β1∗Age
简单二元Logistic回归
年龄如何影响鱼是否长于30厘米?您将准备一个简单的二进制Logistic回归模型,其形式为:
log(p1−p)=β0+β1∗Age
pβ0+β1∗Agepp∗(1−p)
简单泊松回归
年龄如何影响鱼鳞的数量?您将制定一个简单的Poisson回归模型,其形式为:
log(μ)=β0+β1∗Age
μβ0+β1∗Age
总而言之,条件分布表示模型中包含的预测变量的特定值的结果值的分布。上面说明的每种类型的回归模型都会在给定年龄的结果变量的条件分布上施加某些分布假设。基于这些分布假设,模型将继续公式化:(1)条件分布的均值如何随年龄变化(简单线性回归);(2)条件分布的对数变换后的均值如何随年龄变化年龄(简单的二元logistic回归)或(3)条件分布的对数转换均值随年龄而变化。
对于每种类型的模型,可以定义相应的残差以进行模型检查。特别是,可以为logistic和Poisson回归模型定义Pearson和偏差偏差。