简洁版本:
我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量,该变量根据观察之前的某个固定阈值离散化。对于泊松回归,是否可以使用类似的潜在变量解释?当有两个以上的离散结果时,二项式回归(如logit或probit)怎么样?在最一般的层面上,是否有一种方法可以根据潜在变量来解释任何GLM?
长版:
以下是激发二进制结果的概率模型的标准方法(例如,来自Wikipedia)。我们有一个不可观测的/潜在的结果变量,该变量以预测变量为正态分布。该潜变量经过阈值处理,因此,如果,我们实际观察到的离散结果为,如果,则。这导致给定时的概率采用正态CDF形式,均值和标准差是阈值的函数 ý ≥ γ û = 0 ý < γ X和回归的斜率的。,分别。因此,以概率模型为动力,以此作为根据对潜在回归来估计斜率的一种方法。
下图来自Thissen&Orlando(2001)。这些作者在技术上从项目响应理论上讨论正常的ogive模型,该模型对于我们的目的而言很像概率回归(请注意,这些作者使用代替,并且概率用代替了通常的)。X Ť P
我们可以以几乎完全相同的方式解释逻辑回归。唯一不同的是,现在没有观察到连续遵循物流配送,而不是一个正态分布,给出X。关于为什么的理论论证可能遵循逻辑分布而不是正态分布不太清楚...但是由于实际应用(在重新缩放后)所得的逻辑曲线看起来与正态CDF基本相同,因此可以说是“不会”。在实践中,使用哪种模型往往很重要。关键是两个模型都具有非常简单明了的潜在变量解释。
我想知道我们是否可以将外观相似(或地狱外观不同)的潜在变量解释应用于其他GLM 甚至任何 GLM。
即使将上述模型扩展为考虑二项式结果(即,不仅仅是伯努利结果),对我来说也不是很清楚。大概可以通过想象,我们有多个阈值(比观察到的离散结果少一个),而不是只有一个阈值γ来做到这一点。但是我们需要对阈值施加一些约束,例如阈值是均匀分布的。我很确定像这样的东西可以工作,尽管我还没有弄清楚细节。
对我来说,转向泊松回归的情况似乎还不清楚。我不确定阈值的概念是否将是在这种情况下考虑模型的最佳方法。我也不确定我们可以将潜在结果设想为什么样的分布。
最理想的解决方案是用具有某些分布或其他形式的潜在变量来解释任何 GLM 的通用方法-即使该通用解决方案暗示的隐式变量解释与通常的logit / probit回归解释不同。当然,如果通用方法与对logit / probit的通常解释一致,而且自然扩展到其他GLM,那会更酷。
但是,即使在一般GLM案例中通常无法使用这种潜在变量解释,我也想听听有关特殊情况(例如我上面提到的Binomial和Poisson案例)的潜在变量解释。
参考文献
Thissen,D.&Orlando,M.(2001)。物品响应理论分为两类。在D.Thissen&Wainer,H.(编辑)的《测试评分》(第73-140页)中。新泽西州马瓦市:Lawrence Erlbaum Associates,Inc.
编辑2016-09-23
在某种意义上,任何GLM都是潜在变量模型,这就是说我们可以始终将估计的结果分布参数视为“潜在变量”,也就是说,我们不直接观察,例如泊松的rate参数,我们只是从数据中推断出来。我认为这是一个相当琐碎的解释,并不是我真正想要的解释,因为根据这种解释,任何线性模型(当然还有许多其他模型!)都是“潜在变量模型”。例如,在正态回归中,给定正态Y的“潜伏” 。因此,这似乎将潜在变量建模与仅参数估计混为一谈。例如,在泊松回归的情况下,我正在寻找的东西看起来更像是一个理论模型,它说明了观察到的结果为何首先应该具有泊松分布的情况,并给出了一些假设(由您填写!)。潜在的分布,选择过程(如果有的话)等。然后(也许很关键?),我们应该能够根据这些潜在分布/过程的参数来解释估计的GLM系数,类似于我们如何根据潜在正态变量的均值漂移和/或阈值γ的均值漂移,从概率回归中解释系数。