可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗?
是; 如果在该规模上满足假设
方差同质性检验是否足以证明使用正态分布是合理的?
为什么方差相等意味着正常?
残差检查程序是否正确以证明选择链接功能模型是正确的?
您应该当心使用直方图和拟合优度检验您的假设是否合适:
1)当心使用直方图评估正常性。(另请参阅此处)
简而言之,根据您对binwidth的选择的微小变化,甚至只是bin边界的位置的简单变化,就可能对数据的形状产生完全不同的印象:
这是同一数据集的两个直方图。使用几种不同的binwidth有助于查看印象是否对此敏感。
2)当心使用拟合优度检验来推断正态性假设是合理的。形式假设检验并不能真正回答正确的问题。
例如,看到项目下的链接2. 这里
关于方差,在某些使用相似数据集的论文中提到“因为分布具有均质方差,因此使用了具有高斯分布的GLM”。如果这是不正确的,我如何证明或决定分配?
在正常情况下,问题不是“我的错误(或条件分布)是否正常?” -不会的,我们甚至不需要检查。一个更相关的问题是“当前出现的非正常程度如何严重影响我的推论?”
我建议使用内核密度估计或正常的QQplot(残差与正常分数的图)。如果分发看起来合理正常,则无需担心。事实上,即使这显然不正常的它仍然未必是很大,这取决于你想要做的(正常的预测区间真的会依靠常态,例如,但许多其他的事情往往会工作在大样本量是什么)
有趣的是,在大样本中,正态性通常变得越来越不重要(除了如上所述的PI),但是您拒绝正态性的能力越来越强。
编辑:关于方差相等的观点是,即使在大样本量下,它实际上也会影响您的推论。但是您可能也不应该通过假设检验来评估这一点。无论您的假设分布如何,使方差假设错误都是一个问题。
我读到,该模型的比例偏差应该在Np左右,这样才很合适吗?
当您拟合正常模型时,它具有比例参数,在这种情况下,即使您的分布不正常,您的比例偏差也将约为Np。
您认为带日志链接的正态分布是一个不错的选择
在仍然不知道您要测量的内容或推理所用的内容的情况下,我仍然无法判断是否建议GLM的其他分布,也不能判断正态性对您的推理有多重要。
但是,如果您的其他假设也是合理的(至少应该检查线性和方差相等,并考虑潜在的依赖源),那么在大多数情况下,我会很乐于做诸如使用CI以及对系数或对比进行测试的事情。 -这些残差只有很小的偏斜印象,即使这是一个真实的效果,也不会对这些推理产生实质性影响。
简而言之,你应该没事。
(虽然其他分布和链接功能在拟合方面可能会更好一些,但只有在有限的情况下,它们才可能更有意义。)