零成簇的非负数据模型(Tweedie GLM,零膨胀GLM等)是否可以预测精确的零?


15

当参数p(均值-方差关系的指数)在1到2之间。

类似地,零膨胀(无论是连续的还是离散的)模型可以具有大量的零。

我无法理解为什么当我使用这些模型进行预测或计算拟合值时,所有预测值都不为零。

这些模型可以实际预测确切的零吗?

例如

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

pred现在不包含任何零。我认为Tweedie分布之类的模型之所以有用,是因为它可以预测精确的零和连续部分。

我知道在我的示例中变量x不是非常可预测的。


还考虑半参数序数响应模型,该模型允许任意分布。Y
弗兰克·哈雷尔

Answers:


16

注意,GLM中的预测值是平均值。

对于非负值的任何分布,要预测平均值为0,其分布必须完全是0的尖峰。

然而,在一个日志链接,你永远不会满足的正是零均值(因为这将需要- )。η

因此,您的问题不是Tweedie的问题,而是更普遍的问题。例如,您会遇到与Poisson(零充气或普通Poisson GLM)完全相同的问题。

我认为Tweedie分布的有用之处在于它可以预测精确的零和连续部分。

由于使用对数链接预测非负值的任何分布都不会预测精确零,因此您对此的思考一定是错误的。

它的吸引力之一是它可以在数据中建模精确的零,而不是均值预测将为0。[当然,即使均值必须超过0,均值非零的拟合分布仍然有可能恰好为零。例如,合适的预测间隔可能很好地包括0。

拟合分布中包括相当大比例的零根本不重要-并不使拟合均值为零。

请注意,如果将链接功能更改为说一个身份链接,那么它并不能真正解决您的问题-非负随机变量的平均值(不是全零)将为正。


1
感谢您的解释。我将tweedie glm与gamma glm进行了比较,无论数据包含多少个零,β值都几乎完全相同(我将零值更改为gamma glm的很小的值)。提出的同时预测零和连续部分的方法是什么。
spore234 2015年

2
@ spore234您可以滚动自己的gamma障碍模型,该模型将具有预测0/1的二项式障碍和适合非零数据的gamma模型。这里是博客文章的链接,该文章讨论了该模型以及如何手动将其拟合到R中。顺便说一句,如果某些事物是连续的,您怎么知道它正好为零?您的测量设备能够进行这种细粒度的测量吗?
恢复莫妮卡

2
@孢子,您将必须更明确地表达“预测零”的真正含义;我的答案已经确定了为什么没有其他分布模型代替Tweedie会给出零的均值预测(NB零膨胀和障碍模型的均值预测也存在相同的问题)。给定一个平均预测就是您使用GLM时“预测”的意思,那么现在意味着什么?如果您将其更改为意味着某种意义上应该使用0膨胀或障碍模型,则Tweedie可能会满足相同的条件。
Glen_b-恢复莫妮卡2015年

1
这实际上取决于您“预测”的含义(因为您不是要“预测平均值”,您需要说出您要寻找的是什么-您是否要预测零概率?中位数预测?还有其他?),您认为哪种情况“更好”,因此可以进行一些比较。
Glen_b-恢复莫妮卡2015年

1
@ spore234问题仍然是,您使用了“预测”一词,但未能定义“预测”的含义(我一直在问!)。你似乎已经排除了这两个术语的最明显的解释在这种情况下,所以你需要说什么你的意思。当您说“预测此人的费用将是多少”时,您实际上是什么意思?请注意,您无法获得每个人的确切费用……因此,此“预测”应具有哪些属性?
Glen_b-恢复莫妮卡2015年

10

预测零的比例

我是statmod包的作者,还是tweedie包的共同作者。您示例中的所有内容均正常运行。该代码正确地说明了数据中可能存在的任何零。

正如Glen_b和Tim所解释的,除非零的概率为100%,否则预测的平均值永远不会完全为零。但是,可能感兴趣的是零的预测比例,这可以很容易地从模型拟合中提取出来,如下所示。

这是一个更明智的工作示例。首先模拟一些数据:

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

数据包含12个零。

现在安装Tweedie glm:

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Xϕ

X

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06 

因此,零的预测比例从最小平均值的38.1%下降到最大平均值的4.5e-6。

精确零概率的公式可以在Dunn&Smyth(2001)Tweedie族密度:评估方法Dunn&Smyth(2005)系列对Tweedie指数色散模型密度的评估中找到


谢谢,有用!关于如何计算这些完全为零的概率的置信区间的任何建议?完全有道理吗?我也对如何在您的2005年论文中定义“ 95%可能性区域”感到困惑,这可能是我找不到的东西。我将不胜感激
irintch3

8

这个答案是从另一个线程合并而来的,该线程询问有关预测零膨胀的回归模型,但它也适用于Tweedie GLM模型。

FF

F零信息ÿ=π一世{0}ÿ+1个-πFÿ

一世F零信息ÿ

μ一世=π0+1个-πG-1个X一世β

G-1个

ÿXÿXÿXËÿ|X

例


蒂姆,这确实是一个很好的答案,对于合并的时机,我感到抱歉。如果您希望对问题进行进一步的修改以使其更规范化或更适合(包括您回答的问题中的一部分),请继续进行,否则我很乐意为您解决。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.