广义线性模型（GLM）的潜在变量解释

简洁版本：

我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量，该变量根据观察之前的某个固定阈值离散化。对于泊松回归，是否可以使用类似的潜在变量解释？当有两个以上的离散结果时，二项式回归（如logit或probit）怎么样？在最一般的层面上，是否有一种方法可以根据潜在变量来解释任何GLM？

长版：

以下是激发二进制结果的概率模型的标准方法（例如，来自Wikipedia）。我们有一个不可观测的/潜在的结果变量 $Y$ ，该变量以预测变量为正态分布 $X$ 。该潜变量经过阈值处理，因此，如果，我们实际观察到的离散结果为，如果，则。这导致给定时的概率采用正态CDF形式，均值和标准差是阈值的函数 $u=1$ $Y \ge \gamma$ $u=0$ $Y < \gamma$ $u=1$ $X$ $\gamma$ 和回归的斜率的。 $Y$ $X$ ，分别。因此，以概率模型为动力，以此作为根据对潜在回归来估计斜率的一种方法。 $Y$ $X$

下图来自Thissen＆Orlando（2001）。这些作者在技术上从项目响应理论上讨论正常的ogive模型，该模型对于我们的目的而言很像概率回归（请注意，这些作者使用代替，并且概率用代替了通常的）。 $\theta$ $X$ $T$ $P$

我们可以以几乎完全相同的方式解释逻辑回归。唯一不同的是，现在没有观察到连续遵循物流配送，而不是一个正态分布，给出。关于为什么的理论论证 $Y$ $X$ 可能遵循逻辑分布而不是正态分布不太清楚...但是由于实际应用（在重新缩放后）所得的逻辑曲线看起来与正态CDF基本相同，因此可以说是“不会”。在实践中，使用哪种模型往往很重要。关键是两个模型都具有非常简单明了的潜在变量解释。 $Y$

我想知道我们是否可以将外观相似（或地狱外观不同）的潜在变量解释应用于其他GLM 甚至任何 GLM。

即使将上述模型扩展为考虑二项式结果（即，不仅仅是伯努利结果），对我来说也不是很清楚。大概可以通过想象，我们有多个阈值（比观察到的离散结果少一个），而不是只有一个阈值来做到这一点。但是我们需要对阈值施加一些约束，例如阈值是均匀分布的。我很确定像这样的东西可以工作，尽管我还没有弄清楚细节。 $n>1$ $\gamma$

对我来说，转向泊松回归的情况似乎还不清楚。我不确定阈值的概念是否将是在这种情况下考虑模型的最佳方法。我也不确定我们可以将潜在结果设想为什么样的分布。

最理想的解决方案是用具有某些分布或其他形式的潜在变量来解释任何 GLM 的通用方法-即使该通用解决方案暗示的隐式变量解释与通常的logit / probit回归解释不同。当然，如果通用方法与对logit / probit的通常解释一致，而且自然扩展到其他GLM，那会更酷。

但是，即使在一般GLM案例中通常无法使用这种潜在变量解释，我也想听听有关特殊情况（例如我上面提到的Binomial和Poisson案例）的潜在变量解释。

参考文献

Thissen，D.＆Orlando，M.（2001）。物品响应理论分为两类。在D.Thissen＆Wainer，H.（编辑）的《测试评分》（第73-140页）中。新泽西州马瓦市：Lawrence Erlbaum Associates，Inc.

编辑2016-09-23

在某种意义上，任何GLM都是潜在变量模型，这就是说我们可以始终将估计的结果分布参数视为“潜在变量”，也就是说，我们不直接观察，例如泊松的rate参数，我们只是从数据中推断出来。我认为这是一个相当琐碎的解释，并不是我真正想要的解释，因为根据这种解释，任何线性模型（当然还有许多其他模型！）都是“潜在变量模型”。例如，在正态回归中，给定正态的“潜伏” $\mu$ $Y$ $X$ 。因此，这似乎将潜在变量建模与仅参数估计混为一谈。例如，在泊松回归的情况下，我正在寻找的东西看起来更像是一个理论模型，它说明了观察到的结果为何首先应该具有泊松分布的情况，并给出了一些假设（由您填写！）。潜在的分布，选择过程（如果有的话）等。然后（也许很关键？），我们应该能够根据这些潜在分布/过程的参数来解释估计的GLM系数，类似于我们如何根据潜在正态变量的均值漂移和/或阈值的均值漂移，从概率回归中解释系数。 $Y$ $\gamma$

— 杰克·韦斯特伦
source

我们是否可以将您的问题改写为“线性预测变量对应于哪些GLM系列，用于一些连续分布的位置参数和选择模型？” 对于Probit和Logistic回归，线性预测变量分别是高斯和Logistic分布位置参数。选择模型的阈值为0。（FWIW，我认为不会有很多其他模型-实际上，Probit / Logistic是同一家族，但具有不同的链接功能...）

— Andrew M

@AndrewM我认为，改写可能适用于结果离散的GLM。但是我不愿将整个问题简化为那样，因为我真的看不到这样的位置+选择模型如何对具有连续结果的GLM起作用。因此，措辞似乎几乎排除了那些GLM的答案

— Jake Westfall

潜在类模型属于有限混合模型类别。考虑它们的一种直接方法是，它们是有监督的学习模型，该模型在后端将模型中残差的异质性划分为多个组。类似的逻辑和划分可以应用于来自任何模型（包括GLM）的残差中固有的异质性。当然，进行这种分区的方法可能是不平凡的选择，并且可能是一种繁杂的解决方案，但可以使它起作用。

— Mike Hunter

如果GLM诱导分布

我们不能再选择非常多的潜在分布

，使得

f (y_{i} | η_{i})

$f(y_i|\eta_i)$

g (θ_{i} | η_{i})

$g(\theta_i|\eta_i)$

？

f (y_{i} | η_{i}) = \int f (y_{i} | η_{i}, θ_{i}) g (θ_{i} | η_{i}) d θ_{i}

$f(y_i|\eta_i) = \int f(y_i|\eta_i, \theta_i) g(\theta_i|\eta_i) d\theta_i$

— 安德鲁·M

有序的概率可以具有类似的解释。参见ET中的Becker＆Kennedy 论文。

— Dimitriy V. Masterov

对于具有多个离散结果的模型，有多种版本的logit模型（例如，条件logit，多项式logit，混合logit，嵌套logit等）。请参阅肯尼斯火车的有关该主题的书：http : //eml.berkeley.edu/books/choice2.html

例如，在有条件的logit中，结果是个人选择的汽车，并且可能说有辆汽车可供选择，而汽车具有给出的属性。然后假定个体接收效用从艇员选拔车，其中分布的I型极值。然后选择汽车的概率为 $y$ $J$ $j$ $x_j$ $i$ $u_{ij} = x_j \beta + \varepsilon_{ij}$ $j$ $\varepsilon_{ij}$ $j$

Pr (y = j) = \frac{\exp (x_{j} β)}{\sum_{k = 1}^{J} \exp (x_{k} β)}

$\Pr(y=j) = \frac{\exp(x_j \beta)}{\sum_{k=1}^J \exp (x_k \beta)}$

$u_{ij}$ $\beta$ ，以便该排名与我们看到的人们所做的观察选择相符。例如，如果更昂贵的汽车的市场份额较低，其他所有条件都相等，那么价格系数必须为负。

$u$ 。

请注意，这里没有“阈值”参数：相反，当一个实用程序变得大于以前的最大实用程序时，使用者将切换到选择该实用程序。

$x_j \beta$

— 超级刺客
source