如何决定使用哪个glm家庭?


17

我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示:直方图样本

我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。


1
“鱼的密度”到底是什么?例如,每单位体积的湖中有多少鱼?
gung-恢复莫妮卡

它是单位面积(在本例中为平方米)的鱼的数量。我们使用了视觉调查工具,因此它是根据观察到的鱼的数量除以该工具所调查的面积得出的。我们必须使用密度在工具之间进行标准化,因为它们会测量非常不同的面积,否则我只能使用计数数据并坚持泊松分布。
C. Denney

7
我的建议-返回计数数据,并在带有对数链接的模型中使用“区域”作为偏移量-但我不知道泊松分布是否非常合适(很难猜测,因为您的直方图仅显示了边际分布,而不是GLM将要建模的条件分布...而且在任何情况下,仓位太少而无法使用)。如果Poisson的尾巴不够

我对Poisson每天进行全天建模,Glen_b的评论是规范的答案。
Paul

2
一个附录-当观测单位(在这种情况下,我想您算单条鱼吗?)像随机散布的沙粒一样独立分布在整个观测领域时,泊松模型在理论上是合理的。在此假设下,密度可能会有一些变化,但是一条鱼的位置并不暗示其他鱼的位置。但请注意,在实践中可能会违反此假设,因为鱼会聚集成群,例如进入学校,然后它们的位置不再独立。
保罗

Answers:


8

GLM系列包含链接函数以及均值-方差关系。对于Poisson GLM,链接函数是对数,均值-方差关系是恒等。尽管大多数统计软件都会警告您,但是在连续数据中对关系建模是完全合理的,在该数据中,两个变量之间的关系在对数刻度上是线性的,并且方差根据均值增加。

从本质上讲,这就是在GLM中选择链接和方差函数的理由。当然,此过程背后有几个假设。您可以通过使用拟似然性(请参见?quasipoisson)或可靠的标准误差(请参见package sandwichgee)来建立更健壮的模型。

您正确地注意到,数据中的许多密度为0。在Poisson概率模型下,偶尔对数据中的0采样是合适的,因此,这些观察结果不一定会导致利率估算出现偏差。

要检查GLM背后的假设,通常查看Pearson残差通常会有所帮助。这些解释了均值方差关系,并向统计学家表明了特定观察值(例如这些0)是否严重影响了估计和结果。


22

广义线性模型是根据线性预测变量定义的

η=Xβ

通过链接函数 传递:g

g(E(Y|X))=η

它对因变量和自变量之间的关系进行。更精确地说,它在给定的情况下对的条件期望进行建模X = X 1X 2X k Y XYX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

因此可以用概率术语定义模型为

Y|Xf(μ,σ2)

其中是指数族的概率分布。因此,要通知第一件事情是是分配,但跟随它有条件地对。选择此分布取决于您对和之间的关系的了解(可以假设)。因此,无论您在哪里阅读有关分布的信息,都意味着有条件分布。ffYYXYX

另一方面,在实践中,如果您对建立预测模型感兴趣,则可能对测试几种不同的分布感兴趣,最后您会发现,其中一个可以为您提供比其他分布更准确的结果,即使不是。从理论上讲,大多数“合适的”(例如,理论上您应该使用泊松,但实际上标准线性回归最适合您的数据)。


2

这是一个有点笼统的问题,您正在询问如何进行建模,并且有整本书籍专门针对此问题。例如,在处理计数数据时,请考虑以下因素:

除了选择分发之外,还必须选择链接功能。使用计数数据,您可以尝试泊松或负二项式分布,以及对数链接功能。给出对数链接的原因:拟合优度以及选择线性回归或Poisson的模型 如果您的面片具有截然不同的面积,则可能应包括面积的对数作为偏移量,以建模单位面积而不是绝对的数量计数。有关计数数据回归中偏移量的说明,请参阅何时在Poisson回归中使用偏移量?

EDIT 

该答案最初发布到另一个问题,该问题已与该问题合并。尽管答案很笼统,但它评论了数据集和问题的细节,而这些都不再是问题了。原始问题可以在以下链接中找到: GLM中的家庭-如何选择合适的一个?


@kjetil,我们无法解决问题,只有开发人员才能做到(而且他们真的不喜欢)。不过,我仍然可以访问原始Q。一种可能是,我可以将内容复制到新的Q(由我创作)中,您可以将A复制到新线程中,然后我可以将该线程复制为新副本。很难说这是一个疯狂的主意,还是值得一试,但这是我能做的。您有偏好吗?
gung-恢复莫妮卡

@gung:您可以这样做,或者我可以将有关该问题的信息复制到此处的答案中。也许那是最好的?(我可以从编辑历史记录中进行编辑)
kjetil b halvorsen

1
@kjetilbhalvorsen首先,很抱歉弄乱了,因为合并线程是我的主意,因为它们似乎几乎是相同的,并且都包含了很好的答案。我最初的印象是合并线程不会造成任何伤害。也许您可以在第二段中简单地添加“例如,当处理计数数据时...”?您的回答很好地回答了一般的“如何选择家庭?” 问题,也许值得将其保留在常规线程中?
蒂姆

1
@Tim我将按您所说的编辑!
kjetil b halvorsen

让我们尝试编辑。如果您希望我重新发布问题,请再次ping我。我现在要解雇旗帜。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.