负二项式回归问题-模型是否较差?


31

我正在阅读Sellers和Shmueli撰写的关于计数数据回归模型的非常有趣的文章。在开始时(第944页),他们援引McCullaugh和Nelder(1989)的话说负二项式回归不受欢迎,并且在规范上存在问题。我找到了提到的段落,并说(M和N的第374页)

“在应用程序中似乎很少使用负二项式分布;特别是,规范链接的使用是有问题的,因为它使线性预测变量成为方差函数的参数的函数。”

在上一页中,他们将链接功能设置为

η=日志α1个+α=日志μμ+ķ

和方差函数

V=μ+μ2ķ

分布为

P[Rÿ=ÿ;αķ=ÿ+ķ-1个ÿķ-1个αÿ1个+αÿ=ķ

我发现NB回归被广泛使用(并在几本书中推荐)。所有这些使用和建议是否有误?

这种问题链接的后果是什么?


3
可能至少部分要归因于1989年的报价。我敢打赌,目前大多数NB用途都是较新的。NB模型通常在处理通常的二项式可能性(即逻辑回归)情况下的过度分散问题时非常有用。

5
Vαμ2V=μ+αμ2

3
这些评论我会一针见血。关于MN:他们对什么是GLM有非常严格的定义(我认为有充分的理由)。形状参数未知的Negbin模型不符合McCullagh,Nelder,Pregibon等对GLM的严格定义。因此从技术上讲,在几乎所有用例中,它都不是GLM。解释为稍有不同的模型类,并通过最大似然估计,不再有问题。Re S&S需要一个案例来激励COM Poisson,因此M&N的报价派上了用场。
Momo 2013年

4
我不知道为什么所谓的规范链接的不良特性使negbin模型总体上令人难以置信。您可以根据数据和要解决的问题选择链接函数,而不必参考数学理论。实际上,我怀疑是否有人在使用规范链接。这与伽马GLM类似。规范的链接是相反的,但我敢打赌,由于易于解释,并且自然适用于许多情况,因此更多的人使用对数链接。
Hong Ooi

4
据我所知,几乎没有理由使用负二项式模型。即使您的数据是由负二项式模型真正生成的,泊松回归也可以得出自变量对均值响应影响的一致估计值,而这几乎总是研究人员想要估计的结果。如果泊松假设是错误的,则通常的标准错误是错误的,但是通过自举修复了该问题。任何时间Ë{ÿ|X}=ËXpXβ,您可以持续估算 β使用泊松。
条例草案

Answers:


10

我从几个角度质疑这些主张:

i)虽然规范的链接很可能是“问题性的”,但尚不立即有人会对该链接感兴趣—例如,泊松中的对数链接通常既方便又自然,因此人们经常对此感兴趣。即使这样,在Poisson案例中,人们的确会查看其他链接函数。

因此,我们不必将考虑范围局限于规范链接。

“问题联系”本身并不是反对负二项式回归的特别有说服力的论据。

例如,在某些负二项式应用中,对数链接似乎是一个相当合理的选择,例如,在数据可能是有条件的泊松但泊松速率存在异质性的情况下,对数链接几乎可以解释为就像在Poisson案中一样。

相比之下,我经常使用Gamma GLM,但我不记得(使用教科书示例)曾经使用过其规范的链接-我几乎总是使用对数链接,因为它是用于解决各种问题的更自然的链接我倾向于一起工作。

ii)“在应用中似乎并没有做出什么……”在1989年可能是正确的,但我认为现在不成立了。[即使它确实存在,也不是说它的模型不好,只是它没有被广泛使用-这可能出于各种原因而发生。]

负二项式回归已经越来越广泛地使用,因为它已经越来越广泛了,我现在看到它在更广泛的应用中使用了。例如,在R中,我利用了MASS支持它的功能(相应的书,Venables和Ripley的《S的现代应用统计》,在一些有趣的应用程序中使用了负二项式回归)-并且我使用了一些功能在其他一些软件包中,甚至在我在R中使用它之前。

如果我更容易使用负二项式回归,甚至更早使用它。我希望许多人也是如此-因此,很少使用它的说法似乎是一种机会。

尽管可以避免负二项式回归(例如通过使用过度分散的Poisson模型),或者在许多情况下您所做的事情实际上并不重要,但是有很多原因导致其不完全令人满意。

例如,当我对预测区间的兴趣多于对系数的估计时,系数不变的事实可能不是避免负二项式的充分理由。

当然,还有其他选择可以对分散进行建模(例如,您提到的论文的主题是Conway-Maxwell-Poisson);尽管这些当然是选项,但有时在某些情况下,我很高兴负二项式作为我问题模型的一个很好的“合适”。

所有这些使用和建议是否有误?

我真的不这么认为!如果是这样的话,现在应该已经很清楚了。的确,如果麦库拉和内尔德继续有同样的感觉,他们将不缺乏机会,也没有任何论坛可以澄清其余问题。内尔德(Nelder)已去世(2010),但麦库拉(McCullagh)显然仍在附近

如果他们只有麦库拉(McCullagh)和内德(Nelder)的那段短篇小说,那我会说这是一个很弱的论点。

这种问题链接的后果是什么?

我认为问题主要是方差函数和链接函数中的一个相关而不是不相关(在流行的几乎所有其他主要GLM系列中都是这样),这使得对线性预测变量的解释成为可能。不那么直接(这并不是说这是唯一的问题;我确实认为这是从业者的主要问题)。这没什么大不了的。


通过比较,我看到Tweedie模型在最近被广泛使用,并且我看不到有人担心自己 p 出现在方差函数和规范链接中(大多数情况下也不用担心规范链接)。

这一切都不能脱离Conway-Maxwell-Poisson模型(Sellers和Shmueli论文的主题),该模型越来越广泛地使用-我当然不希望参加负二项式与COM -泊松射击比赛。

我只是不认为它是一种或另一种,就我在统计问题上采取纯粹的贝叶斯立场或纯粹的频率主义立场而言(现在已经说得更广泛了)。在我所处的特定情况下,我会使用任何让我印象深刻的东西作为最佳选择,并且每种选择都有优点和缺点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.