拟合R的负二项式回归中的theta是多少?


26

我有一个关于负二项式回归的问题:假设您有以下命令:

require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)

(请注意,cars是R中可用的数据集,我并不在乎这个模型是否有意义。)

我想知道的是:如何解释变量theta(在调用的底部返回summary)。这是负数分布的形状参数,是否可以将其解释为偏度的度量?


MASS说的总结在这里
Scortchi-恢复莫妮卡

Answers:


17

是的,theta是负二项式分布的形状参数,否,您不能真正将其解释为偏度的度量。更确切地说:

  • 偏度将取决于的值theta,但也取决于均值
  • 没有任何价值theta将保证您没有偏斜

如果我不搞砸的话,在负二项式回归中使用的mu/ theta参数化中,偏度为

Skew(NB)=θ+2μθμ(θ+μ)=1+2μθμ(1+μθ)

在这种情况下,通常将解释为相对于泊松分布的过度分散的度量。负二项式的方差是μ + μ 2 / θ,所以θ真正控制过量变性相比泊松(这将是μ),并没有歪斜。θμ+μ2/θθμ


到目前为止,谢谢!这是个很好的帮助...但是:如何解释theta的高或(低)值?在McCaullaughs的广义线性模型中,有一个从anscombe到本文的链接来解释k。但不幸的是,我并没有真正理解它。该文件是claremontmckenna.edu/facultysites/math/FacMember/MOneill/…– MarkDollar
2011年

您只需要阅读第一页。因此,theta(或anscombe中的k)是negbin分布的形状参数,如果分布更接近伽玛(k-> 0)或泊松(k->无穷大),它就可以进行管理。但是,这对健康意味着什么呢?例如,我如何解释汽车估算的theta?
MarkDollar,2011年

33

我的一位学生在“ 建模计数数据”课程中将我转介到此站点。关于负二项式模型,尤其是关于色散统计量和色散参数,似乎存在很多误导。

弥散统计量是皮尔逊统计量除以残余自由度,它表示计数模型的超分散性。是位置或形状参数。对于计数模型,比例参数设置为1。R 和θ是离散参数或辅助参数。我在本书第一版《负二项式回归》(2007年,剑桥大学出版社)中将其称为异质性参数,但在2011年第二版中将其称为弥散参数。我在即将出版的即将出版的《建模计数数据(剑桥)》一书中对NB模型中的各个术语给出了完整的理由。它应该在7月15日之前出售(平装)。 μglmglm.nb θ

glm.nb并且glm在定义色散参数的方式上很不寻常。方差被给定为,而不是μ+αμ2,这是直接参数化。这是在SAS,Stata,Limdep,SPSS,Matlab,Genstat,Xplore和大多数所有软件中对NB建模的方式。将结果与其他软件结果进行比较时,请记住这一点。作者(来自S-plus)和μ+μ2θμ+αμ2glm.nbglmglm.nb显然是从McCullagh&Nelder那里获得的间接关系,但是Nelder(他是1972年GLM的联合创始人)在1993年将他的kk system附加组件写到Genstat上,他认为直接关系是首选。从1993年初到他去世前,他和他的妻子过去每两年一次在亚利桑那州探访我和我的家人。我们已经进行了非常彻底的讨论,因为我已经将1992年后期为Stata和Xplore软件以及1994年为SAS宏编写的glm程序与直接关系纳入了该程序。

CRAN上msme软件包中nbinomial函数允许用户使用直接(默认)或间接(作为选项,复制glm.nb)参数化,并提供Pearson统计信息和残差输出。输出还显示色散统计量,并允许用户参数化α(或θ),从而给出色散的参数估计。这使您可以评估哪些预测变量会增加模型的额外离散度。这种类型的模型通常称为异质负二项式。在新书问世之前,我将把该函数放入COUNT包中,以及一些新的图形函数和脚本。 αθnbinomial


2
感谢您的澄清。我猜想这种误解的一个问题是它的R输出显示为“(负二项式(θ)族的色散参数设为1)”。这里分散指的是Ç Ö v β= φ X Ť ^ w ^ X- 1,其你似乎调用规模。因此,许多人选择以不同的角度来称呼θ。同样来自R函数,我倾向于称μ位置和θϕcov(β^)=ϕ(XTŴ^X)1θμθ“形状”-我认为后者并不合理,因为它肯定会影响形状。
Momo 2014年

θ的范围是多少?theta是否必须大于1?
News_is_Selection_Bias

2

glm参考负二项式: 在此处输入图片说明

维基百科的负二项式“ r”是glm的“ theta”,这意味着glm“ theta”是形状参数。简而言之,glm的“ theta”是失败的次数。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.