如何为非负零膨胀连续数据建模?


16

我目前正在尝试将线性模型(family = gaussian)应用于不能采用低于零,零膨胀且连续的数值的生物多样性指标。值的范围是0到略大于0.25。结果,模型的残差中有一个很明显的模式,我没有设法消除它: 在此处输入图片说明

有人对如何解决这个问题有任何想法吗?


1
欢迎来到简历!请注意,您的用户名,identicon和指向用户页面的链接会自动添加到您发布的每条帖子中,因此无需签名。实际上,我们不希望您不这样做。
银鱼

3
如果它为零,则它不能是连续的,因为连续变量在cdf中不能有任何跳转(显然0处有一个跳转)。除0之外,它可能是连续的。
Glen_b-恢复莫妮卡

Answers:


32

零膨胀(半)连续分布的情况有多种解决方案:

  • Tobit回归:假设数据来自单个基础正态分布,但是负值被检查并堆叠在零上(例如censReg package
  • 障碍或“两阶段”模型:使用二项式模型预测值是0还是> 0,然后使用线性模型(或Gamma或截断法线或对数正态)对观察到的非零值建模
  • 1<p<2X>0

或者,如果您的数据结构足够简单,则可以使用线性模型并使用置换测试或其他可靠的方法来确保您的推断不会因数据的有趣分布而混乱。

在大多数情况下,都有R包/解决方案。

SE上还有其他有关零膨胀(半)连续数据的问题(例如hereherehere),但它们似乎并没有提供明确的一般答案...

另请参见Min&Agresti,2002年,“在零集中时对非负数据建模:概览”。


@Ben Bolker您会“使用线性模型(或Gamma或截断的Normal或对数Normal)来建模”预测值或实际非零值吗?
rolando2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.