我对转换后的因变量进行日志记录,可以将GLM正态分布与LOG链接功能一起使用吗?


10

我有一个关于广义线性模型(GLM)的问题。我的因变量(DV)是连续的并且不正常。因此,我对其进行了日志转换(仍然不正常,但对其进行了改进)。

我想将DV与两个类别变量和一个连续协变量相关联。为此,我想进行GLM(我正在使用SPSS),但是我不确定如何决定要选择的分布和功能。

我已经进行了Levene的非参数检验,并且我具有方差均匀性,因此我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正态的,残差也可以。因此,我从每个GLM分别打印了标准化的Pearson残差和线性预测变量的预测值(GLM正常标识函数和正常对数函数)。我已经进行了正态性检验(直方图和Shapiro-Wilk),并分别针对两个预测值绘制了残差与预测值(以检查随机性和方差)。来自身份函数的残差不正常,但来自对数函数的残差正常。我倾向于选择具有对数链接功能的正态,因为Pearson残差呈正态分布。

所以我的问题是:

  • 可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗?
  • 方差同质性检验是否足以证明使用正态分布是合理的?
  • 残差检查程序是否正确以证明选择链接功能模型是正确的?

左侧是DV分布图,右侧是对数链接功能,是GLM法线的残差。

DV分布在左侧,GLM法线的残差在右侧


现在还不清楚您的意思是什么:“ 因此,我将GLM中的Pearson残差与正常的身份函数和正常的对数函数进行了比较。
Glen_b -Reinstate Monica 2013年

感谢您的评论。我的意思是我已经分别打印了每个GLM(标识和对数)的残差和预测值,并检查了正态性,并针对每个模型的预测值分别绘制了标准化的Pearson残差。对于身份函数,残差是不正常的,而对于对数函数,残差是正常的。
科学家

标准化的Pearson残差与预测值的关系图如何表明数据实际上是否正常?
Glen_b-恢复莫妮卡

我通过绘制残差的直方图并进行Shapiro-Wilk(对数函数P> 0.05)来检查正态性。然后,我针对预测值绘制残差,以查看残差是否随机分布并检查方差。(很抱歉,我第一次发布了重要信息,这是我第一次发布)
科学家

我想这里的“身份函数”是“密度函数”的同音字。
Nick Cox

Answers:


7

可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗?

是; 如果在该规模上满足假设

方差同质性检验是否足以证明使用正态分布是合理的?

为什么方差相等意味着正常?

残差检查程序是否正确以证明选择链接功能模型是正确的?

您应该当心使用直方图和拟合优度检验您的假设是否合适:

1)当心使用直方图评估正常性。(另请参阅此处

简而言之,根据您对binwidth的选择的微小变化,甚至只是bin边界的位置的简单变化,就可能对数据的形状产生完全不同的印象:

残差的两个直方图

这是同一数据集的两个直方图。使用几种不同的binwidth有助于查看印象是否对此敏感。

2)当心使用拟合优度检验来推断正态性假设是合理的。形式假设检验并不能真正回答正确的问题。

例如,看到项目下的链接2. 这里

关于方差,在某些使用相似数据集的论文中提到“因为分布具有均质方差,因此使用了具有高斯分布的GLM”。如果这是不正确的,我如何证明或决定分配?

在正常情况下,问题不是“我的错误(或条件分布)是否正常?” -不会的,我们甚至不需要检查。一个更相关的问题是“当前出现的非正常程度如何严重影响我的推论?”

我建议使用内核密度估计或正常的QQplot(残差与正常分数的图)。如果分发看起来合理正常,则无需担心。事实上,即使这显然不正常的它仍然未必是很大,这取决于你想要做的(正常的预测区间真的会依靠常态,例如,但许多其他的事情往往会工作在大样本量是什么)

有趣的是,在大样本中,正态性通常变得越来越不重要(除了如上所述的PI),但是您拒绝正态性的能力越来越强。

编辑:关于方差相等的观点是,即使在大样本量下,它实际上也会影响您的推论。但是您可能也不应该通过假设检验来评估这一点。无论您的假设分布如何,使方差假设错误都是一个问题。

我读到,该模型的比例偏差应该在Np左右,这样才很合适吗?

当您拟合正常模型时,它具有比例参数,在这种情况下,即使您的分布不正常,您的比例偏差也将约为Np。

您认为带日志链接的正态分布是一个不错的选择

在仍然不知道您要测量的内容或推理所用的内容的情况下,我仍然无法判断是否建议GLM的其他分布,也不能判断正态性对您的推理有多重要。

但是,如果您的其他假设也是合理的(至少应该检查线性和方差相等,并考虑潜在的依赖源),那么在大多数情况下,我会很乐于做诸如使用CI以及对系数或对比进行测试的事情。 -这些残差只有很小的偏斜印象,即使这是一个真实的效果,也不会对这些推理产生实质性影响。

简而言之,你应该没事。

(虽然其他分布和链接功能在拟合方面可能会更好一些,但只有在有限的情况下,它们才可能更有意义。)


再次感谢!关于方差,在某些使用相似数据集的论文中提到“因为分布具有均质方差,因此使用了具有高斯分布的GLM”。如果这是不正确的,我如何证明或决定分配?关于剩余正态分布,就更合适吧?我读到,该模型的比例偏差应该在Np左右,这样才很合适吗?对于GLM和Np而言,该值均相同。我还使用AIC标准确定了模型中最合适的模型。不知道这是否是您的意思。
科学家

请参阅上面我的编辑中的讨论
Glen_b-恢复莫妮卡(Monica)2013年

感谢@Glen_b提供了很好的解释。我还使用Shapiro-Wilk测试了直方图,这不会考虑所有内容吗?我画了QQ,画出了预期的正常和观察到的皮尔逊残差值,以及点+-拟合线,除了尖端略微向上的尖端。这是你的意思吗?残差的分布看起来很正常,所以我可以继续吗?(即使记录的DV不正常)(我仍在阅读链接,但想问这个问题)
科学家,

1
是因为该模型的正态QQ图是正态分布的? ”……我可能会说“残差的QQ图表明正态性的假设是合理的”或“残差看起来合理地接近正态”。如果您的听众希望进行假设检验,那么您仍可以引用一个假设检验(但这并不能改变它们没有特别帮助的事实)。“ 数据集的问题是在DV的直方图中 ”……没有关于无条件DV或任何IV的分布的假设。
Glen_b-恢复莫妮卡

1
请参阅我的答案底部的其他讨论。抱歉,我没有早点回答,但我正在睡觉。在另一个问题上,我问的原因是这两个模型具有大多数假设,所以几乎所有讨论都与该问题有关-即使DV不同。这不是完全相同的情况(因此应该是一个新问题),但是应该将此问题与之联系起来,以便您可以在此讨论的背景下提出问题,例如是否存在其他问题或其他问题。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.