在对连续数据建模时,泊松分布如何工作,是否会导致信息丢失?


20

一位同事正在为她的论文分析一些生物学数据,并得出一些令人讨厌的异方差(下图)。她正在使用混合模型对其进行分析,但仍然无法处理残差。

对数转换响应变量可以清除内容,并且根据对该问题的反馈,这似乎是一种适当的方法。但是,最初,我们曾认为将转换变量与混合模型一起使用存在问题。事实证明,我们一直在误解Littell&Milliken(2006)的SAS for Mixed Models中的一个陈述,该陈述指出了为什么不适合转换计数数据然后使用正常的线性混合模型进行分析的原因(下面有完整的引号) 。

一种也可以改善残差的方法是使用具有Poisson分布的广义线性模型。我已经读过Poisson分布可用于对连续数据进行建模(例如,如本文中所讨论),并且stats包允许这样做,但是我不了解模型适合时的情况。

为了理解如何进行基础计算,我的问题是:当您将Poisson分布拟合到连续数据时,1)是否将数据四舍五入到最接近的整数2)这样做会导致信息丢失,并且3)何时(如果有的话将Poisson模型用于连续数据是否合适?

Littel&Milliken 2006,第529页,“转换[count]数据可能会适得其反。例如,转换可能会使随机模型效应的分布或模型的线性变形。更重要的是,转换数据仍然留有可能性。负预测计数。因此,高度怀疑使用转换数据的混合模型进行推断。”

在此处输入图片说明


1
像@Tomas一样,我毫无理由不认为您不应该在混合模型之前转换变量,并且我已经阅读了很多有关此主题的文章。我已经收到了Ramon和Littel的书....您要引用的页面是什么?
彼得·弗洛姆

事实证明我们错在解释第529声明
ñ布劳威尔

Answers:


22

我一直在相当频繁地使用Huber / White / Sandwich线性化方差估计量来估计连续的积极结果Poisson回归。但是,这并不是做任何事情的特别好理由,因此这里有一些实际参考。

y

Santos Silva和Tenreyro(2006)也提供了一些令人鼓舞的模拟证据其中Poisson 入围了最佳展示。在结果中有很多零的模拟中也表现出色。您也可以轻松地进行自己的模拟,以使自己确信这在雪花盒中有效。

最后,您还可以将GLM与日志链接功能和Poisson系列一起使用。这将产生相同的结果,并缓解仅计数数据的膝跳反应。

没有非固定链接的参考:

Gourieroux,C.,A。Monfort和A. Trognon(1984)。“伪最大似然方法:泊松模型的应用”,《计量经济学》,第52卷,第701-720页。


2
参见在塔塔这个不错的博客项目的blog比尔·古尔德写的- blog.stata.com/2011/08/22/...
博斯科维克

1
ÿ

Stata博客上有一个相关的文章,提供了更多的模拟证据
Dimitriy V. Masterov

6

泊松分布仅用于计数数据,试图用连续数据馈送它是令人讨厌的,我认为不应该这样做。原因之一是您不知道如何缩放连续变量。泊松在很大程度上取决于规模!我试图用一个简单的例子来解释它。因此,仅出于这个原因,除了计数数据外,我不会将泊松用于任何其他用途。

还要记住,GLM做两件事-链接函数(转换响应变量,在Poisson情况下登录)和残差(在这种情况下为Poisson分布)。考虑生物学任务,残差,然后选择适当的方法。有时使用对数变换是有意义的,但保留正态分布的残差。

“但是似乎传统的智慧似乎是,您不应该将输入的数据转换为混合模型”

我第一次听到!对我根本没有任何意义。混合模型可以像正常的线性模型一样,只是增加了随机效应。您能在这里准确引用吗?我认为,如果对数转换可以解决问题,请使用它!


谢谢您的帮助; 我以为“传统智慧”是对Littel和Milliken的误读。我已经编辑我的问题,并增加从L&M 2006年报价
ñ布劳威尔

@NBrouwer:是的,看来您实际上误解了它。转换计数数据很麻烦,将连续数据转换为计数数据并尝试在其上放置泊松甚至更讨厌!这就是我试图向您解释的。不要这样 只需根据需要对您的连续数据进行日志转换。这在统计数据中非常常见,无需担心。
2012年

5

这是关于如何使用泊松模型来拟合对数回归的又一精彩讨论:http : //blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/(正如博客条目所建议的,我正在告诉一个朋友)。基本推力是我们仅使用泊松模型的部分即对数链接。要求方差等于均值的部分可以用方差的三明治估计值覆盖。但是,所有这些都用于iid数据;Dimitriy Masterov已正确引用了集群/混合模型扩展。


1

如果问题在于均值的方差缩放,但是您有连续的数据,那么您是否考虑过使用可以解决您遇到的问题的连续分布。也许伽玛?方差与均值将具有二次关系-实际上非常像负二项式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.