哪些诊断程序可以验证特定GLM系列的使用?


19

这似乎很基础,但是我总是在这一点上陷入困​​境……

我处理的大多数数据都是非常规的,并且大多数分析都是基于GLM结构的。对于当前的分析,我有一个响应变量,即“步行速度”(米/分钟)。我很容易确定自己无法使用OLS,但是在确定哪个家庭(伽玛,威布尔等)合适的时候,我存在很大的不确定性!

我使用Stata并查看诸如残差和异方差,残差与拟合值之类的诊断信息。

我知道计数数据可以采用比率(例如发生率)的形式,并且使用了伽玛(类似于过度分散的离散负二项式模型),但是只是想用“吸烟枪”说是的,您就对了家庭。看看标准化残差与拟合值是唯一,最好的方法吗?我也想使用混合模型来说明数据中的某些层次结构,但首先需要弄清哪种家庭最能描述我的响应变量。

任何帮助表示赞赏。Stata语言特别感谢!


4
我想用“吸烟枪”说“是的,你有合适的家庭 ”-没有什么可以告诉你的。您所希望的最好的是一个家庭,这个家庭显然没有错。您可以通过多种方式选择分布族,但是总的来说,它往往涉及先验或理论上的考虑以及数据本身的指示。
Glen_b-恢复莫妮卡

Answers:


14

我有一些提示:

(1)如何将残差与拟合进行比较并不总是那么显而易见,因此最好熟悉特定模型的诊断。例如,在逻辑回归模型中,使用Hosmer-Lemeshow统计量来评估拟合优度。当估计赔率非常大,非常小或大约为偶数时,杠杆值往往很小;等等。

(2)有时一个模型系列可以看作是另一个模型系列的特例,因此您可以对参数使用假设检验来帮助您选择。例如,指数与威布尔。

(3)赤池的信息准则可用于在不同模型之间进行选择,包括在不同家庭之间进行选择。

(4)关于您要建模的内容的理论/经验知识缩小了可行模型的范围。

但是,没有自动找到“正确”家庭的方法。现实生活中的数据可能来自您喜欢的复杂分布,而值得尝试拟合的模型的复杂性则随您拥有的数据量而增加。这是Box格言的一部分,其中没有模型是正确的,但有些模型是有用的。

Re @gung的评论:似乎常用的Hosmer-Lemeshow检验(a)对垃圾箱的选择出乎意料地敏感,并且(b)通常比针对某些相关类别的替代假设的其他检验没有那么强大。这不会影响点(1):保持最新状态也很不错。


谢谢!您的建议简洁准确。由于我的响应变量的结构(正值,连续值,但高度偏斜),我的家庭有限。在指数族中,似乎伽马确实是唯一的选择。同时,我发现NJ Cox提供了一些有用的工具,如Stata Jounal 5(2)所示:259-273-gammafit(估计形状和比例参数),而dpplot允许覆盖密度概率图和我的响应变量(可以是完成了许多发行,使我能够将最佳家族与我的数据相匹配)。也感谢其他建议!
RLang

1
请注意,Hosmer-Lemeshow GoF测试已显示取决于所使用的分箱/不可靠。
gung-恢复莫妮卡

@Gung,这显然取决于所使用的装箱-不理想,但是不确定除非您开始摆弄装箱以尝试所需的结果,否则这不是个大问题。这怎么不可靠?还有哪些其他测试更好?
Scortchi-恢复莫妮卡

1
有关这些问题的讨论,请参见Frank Harrell的答案:逐步模型选择,Hosmer-Lemeshow统计和R中嵌套逻辑回归中模型的预测成功
gung-恢复莫妮卡

1
没错,“无效”太强了;我只说“不可靠”,而Harrell使用“过时”。
恢复莫妮卡

8

您可能会发现阅读R包的小插图(入门手册)很有趣fitdistrplus。我认识到您更喜欢在Stata工作,但是我认为该插图非常容易解释,您可以从数据中推断出分布族的过程中获得一些见解。您可能可以通过自己的代码在Stata中实现一些想法。特别是,我认为Cullen和Frey图(如果可以在Stata中实现)可能对您有所帮助。


我再次讨论了这个问题,并切换到R,并使用Zuur和Ieno作为指导。仍然有很多问题,但是总的来说,我认为通过使用varIdent,我的模型诊断程序看起来像具有“较小的异质性”。对拟合的残差进行绘制看起来不错,对每个协变量的残差为我的一个模型变量(高程)提供了一些时髦的结果-主要是高海拔下小样本量的函数。感谢您对fitdistrplus的评论。现在,我正在使用R和Rstudio(喜欢它!),这将很方便!
RLang


后面的链接似乎与我所指的小插图不同。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.