广义线性模型的假设


14

我制作了一个具有单个响应变量(连续/正态分布)和4个解释变量(其中3个是因子,第四个是整数)的广义线性模型。我使用了具有身份链接功能的高斯误差分布。我目前正在检查模型是否满足广义线性模型的假设,即:

  1. Y的独立性
  2. 正确的链接功能
  3. 解释变量的正确计量范围
  4. 没有影响力的观察

我的问题是:如何检查模型是否满足这些假设?最好的起点似乎是针对每个解释变量绘制响应变量。但是,有3个解释变量是分类的(具有1-4个级别),那么在图中我应该寻找什么?

另外,我是否需要检查解释变量之间的多重共线性和相互作用?如果是,我该如何使用分类解释变量?

Answers:


20

我认为试图将其视为广义线性模型是过大的。您拥有的是一个简单的旧回归模型。更具体地说,由于您具有一些分类解释变量和连续的EV,但它们之间没有交互,因此也可以称为经典ANCOVA。

我想说的是,#3实际上并不是您需要担心的假设。同样,您也不必真正担心#2。相反,我将用两个不同的假设取代这些假设:

2'。方差的均质性
3'。残差的正态性

此外,#4是要检查的重要事项,但我并不真正将其视为假设。让我们考虑一下如何检查假设。

通常首先通过考虑数据代表什么以及如何收集数据来“检查” 独立性。此外,可以使用运行 测试Durbin-Watson测试或检查自相关模式来检查它-您还可以查看部分自相关。(请注意,这些只能相对于您的连续协变量进行评估。)

使用主要为分类的解释变量,可以通过计算因子每个级别的方差来检查方差的均匀性。计算完这些后,可以使用几种测试来检查它们是否大致相同,主要是Levene的测试,还有Brown-Forsyth测试建议使用测试,也称为Hartley测试。如果您想了解更多信息,我在这里讨论Fmax。(请注意,这些测试可以应用于您的分类协变量,与上面的方法不同。)对于连续EV,我想将残差相对于连续协变量作图,然后目视检查它们是否分散到另一侧或另一侧。

残差正态性可以通过一些测试(例如Shapiro-WilkKolmogorov-Smirnov测试)进行评估,但通常最好通过qq图在视觉上进行评估。(请注意,此假设通常是集合中不重要的假设;如果未满足该假设,则您的beta估算值仍将是无偏的,但您的p值将不准确。)

有几种方法可以评估您个人观察的影响。可以获取索引此值的数值,但是,如果可以的话,我最喜欢的方法是折磨数据。也就是说,您依次删除每个数据点并重新拟合模型。然后,如果该观测值不属于数据集,您可以检查一下您的Beta反弹了多少。此度量称为dfbeta。这需要一些编程,但是软件通常可以自动为您提供一些标准方法。这些包括杠杆作用库克的距离

关于最初提出的问题,如果您想进一步了解链接函数和广义线性模型,我在这里进行了广泛讨论。基本上,选择合适的链接功能要考虑的最重要的事情是响应分配的性质。由于您认为是高斯的,因此恒等链接是合适的,您可以使用有关回归模型的标准思路来考虑这种情况。 Y

关于“解释变量的正确度量范围”,我认为您指的是史蒂文的度量水平(即分类,有序,区间和比率)。首先要意识到的是,回归方法(包括GLiM)并不对解释变量进行假设,而是在模型中使用解释变量的方式反映了您对这些变量的信念。此外,我倾向于认为史蒂文的水平被夸大了。有关该主题的更多理论处理,请参见此处


1
由于Op包含链接函数,所以我认为他确实的意思是将链接函数应用于Y的广义线性模型。我也将Y的独立性作为假设。我认为更恰当的假设是模型中的误差分量是独立的。考虑到我认为Gung撰写的其余内容是正确的。
Michael R. Chernick

@MichaelChernick,我同意你的看法。为了解决这些问题,我对答案做了一些修改。让我知道您是否仍然需要更多工作。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.