我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示:
我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。
我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示:
我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。
Answers:
GLM系列包含链接函数以及均值-方差关系。对于Poisson GLM,链接函数是对数,均值-方差关系是恒等。尽管大多数统计软件都会警告您,但是在连续数据中对关系建模是完全合理的,在该数据中,两个变量之间的关系在对数刻度上是线性的,并且方差根据均值增加。
从本质上讲,这就是在GLM中选择链接和方差函数的理由。当然,此过程背后有几个假设。您可以通过使用拟似然性(请参见?quasipoisson
)或可靠的标准误差(请参见package sandwich
或gee
)来建立更健壮的模型。
您正确地注意到,数据中的许多密度为0。在Poisson概率模型下,偶尔对数据中的0采样是合适的,因此,这些观察结果不一定会导致利率估算出现偏差。
要检查GLM背后的假设,通常查看Pearson残差通常会有所帮助。这些解释了均值方差关系,并向统计学家表明了特定观察值(例如这些0)是否严重影响了估计和结果。
广义线性模型是根据线性预测变量定义的
通过链接函数 传递:
它对因变量和自变量之间的关系进行。更精确地说,它在给定的情况下对的条件期望进行建模,X = X 1,X 2,… ,X k Y X
因此可以用概率术语定义模型为
其中是指数族的概率分布。因此,要通知第一件事情是是不分配,但跟随它有条件地对。选择此分布取决于您对和之间的关系的了解(可以假设)。因此,无论您在哪里阅读有关分布的信息,都意味着有条件分布。
如果您的结果是连续且不受限制的,那么最“默认”的选择是高斯分布(也称为正态分布),即标准线性回归(除非您使用其他链接功能,然后再使用默认身份链接)。
如果您的结果是离散的,或更准确地说,您是在处理计数(在给定的时间间隔内发生多少次),那么最开始的分布选择是泊松分布。泊松分布的问题在于,它假设均值等于方差,这是相当不灵活的,如果不满足此假设,则可以考虑使用准泊松族或负二项式分布(另请参见色散定义)准泊松族的参数)。
如果结果是二进制(零和一),“成功”和“失败”的比例(值介于0和1之间)或它们的计数,则可以使用二项分布,即逻辑回归模型。如果存在两个以上类别,则可以在多项式回归中使用多项式分布。
另一方面,在实践中,如果您对建立预测模型感兴趣,则可能对测试几种不同的分布感兴趣,最后您会发现,其中一个可以为您提供比其他分布更准确的结果,即使不是。从理论上讲,大多数“合适的”(例如,理论上您应该使用泊松,但实际上标准线性回归最适合您的数据)。
这是一个有点笼统的问题,您正在询问如何进行建模,并且有整本书籍专门针对此问题。例如,在处理计数数据时,请考虑以下因素:
除了选择分发之外,还必须选择链接功能。使用计数数据,您可以尝试泊松或负二项式分布,以及对数链接功能。给出对数链接的原因:拟合优度以及选择线性回归或Poisson的模型 如果您的面片具有截然不同的面积,则可能应包括面积的对数作为偏移量,以建模单位面积而不是绝对的数量计数。有关计数数据回归中偏移量的说明,请参阅何时在Poisson回归中使用偏移量?
EDIT
该答案最初发布到另一个问题,该问题已与该问题合并。尽管答案很笼统,但它评论了数据集和问题的细节,而这些都不再是问题了。原始问题可以在以下链接中找到: GLM中的家庭-如何选择合适的一个?