考虑一个y
从正常预测变量中预测计数数据的障碍模型x
:
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
在这种情况下,我有69个零和31个正计数的计数数据。目前,请不要忘记,根据数据生成过程的定义,这是一个泊松过程,因为我的问题是关卡模型。
假设我想通过障碍模型处理这些多余的零。从我对它们的阅读中,似乎障碍模型本身并不是实际的模型,而是依次进行两种不同的分析。首先,进行逻辑回归,以预测该值是否为正对零。第二,零截断的Poisson回归仅包含非零情况。第二步对我来说是错误的,因为它是(a)丢弃完美的数据,(b)由于许多数据为零,可能会导致电源问题,并且(c)基本上不是其自身的“模型” ,但只需依次运行两个不同的模型即可。
因此,我尝试了“障碍模型”,而不是分别运行逻辑和零截断的泊松回归。他们给了我相同的答案(为简洁起见,我将输出缩写):
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
在我看来,这是因为模型的许多不同数学表示形式都包括在估计正计数情况下观察值非零的可能性,但是我上面运行的模型却完全相互忽略了。例如,这来自Smithson&Merkle的分类和连续受限因变量的广义线性模型的第5章,第128页:
...第二,任何值(零和正整数)的概率必须等于一。在公式(5.33)中不能保证这一点。为了解决这个问题,我们将泊松概率乘以伯努利成功概率。 这些问题要求我们将上述障碍模型表示为 ,其中,,π P (Ý = Ý | X ,ž ,β ,γ )= { 1 - π为 Ŷ = 0 π × EXP (- λ)λ ÿ / ÿ !
...λ=EXP(Xβ)π=升ö克我吨-1(żγ)XŽ是Poisson模型的协变量,是逻辑回归模型的协变量,和是各自的回归系数... 。 γ
通过将两个模型完全彼此分开(这似乎是障碍模型所做的),我看不出如何将纳入正计数案例的预测中。但是基于我仅通过运行两个不同的模型就能复制函数的方式,我看不到在截断的Poisson中如何发挥作用完全没有回归。分对数-1(ż γ)hurdle
我是否正确理解跨栏模型?他们似乎有两个只是在运行两个顺序模型:第二,泊松,完全忽略。如果有人能消除我对业务的困惑,我将不胜感激。π
如果我没错,那就是障碍模型,那么“障碍”模型的定义是什么?想象一下两种不同的情况:
想象一下通过查看竞争力得分(1-(获胜者的投票比例-亚军投票比例))来模拟选举种族的竞争力。这是[0,1),因为没有联系(例如1)。这里有一个障碍模型是有道理的,因为有一个过程(a)选举不受争议?(b)如果不是,那么预测的竞争力是什么?因此,我们首先进行逻辑回归分析0与(0,1)。然后我们进行beta回归分析(0,1)情况。
想象一个典型的心理学研究。响应为[1,7],就像传统的李克特量表一样,在7处具有最大的天花板效应。一个人可以做一个障碍模型,该模型对[1,7)对7进行逻辑回归,然后对所有情况进行Tobit回归,观察到的响应<7。
即使我使用两个连续模型(后一种情况是Logistic,然后是beta,第二种情况是Logistic,然后是Tobit)来估计这两种情况的“障碍”模型是否安全?
pscl::hurdle
,但是在此处的方程式5中看起来是相同的:cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf也许我仍然缺少一些基本的东西会让我点击?
hurdle()
。不过,在配对/小插图中,我们尝试强调更通用的构建基块。