Answers:
我认为试图将其视为广义线性模型是过大的。您拥有的是一个简单的旧回归模型。更具体地说,由于您具有一些分类解释变量和连续的EV,但它们之间没有交互,因此也可以称为经典ANCOVA。
我想说的是,#3实际上并不是您需要担心的假设。同样,您也不必真正担心#2。相反,我将用两个不同的假设取代这些假设:
2'。方差的均质性
3'。残差的正态性
此外,#4是要检查的重要事项,但我并不真正将其视为假设。让我们考虑一下如何检查假设。
通常首先通过考虑数据代表什么以及如何收集数据来“检查” 独立性。此外,可以使用运行 测试,Durbin-Watson测试或检查自相关模式来检查它-您还可以查看部分自相关。(请注意,这些只能相对于您的连续协变量进行评估。)
使用主要为分类的解释变量,可以通过计算因子每个级别的方差来检查方差的均匀性。计算完这些后,可以使用几种测试来检查它们是否大致相同,主要是Levene的测试,还有Brown-Forsyth测试。不建议使用测试,也称为Hartley测试。如果您想了解更多信息,我在这里讨论。(请注意,这些测试可以应用于您的分类协变量,与上面的方法不同。)对于连续EV,我想将残差相对于连续协变量作图,然后目视检查它们是否分散到另一侧或另一侧。
残差的正态性可以通过一些测试(例如Shapiro-Wilk或Kolmogorov-Smirnov测试)进行评估,但通常最好通过qq图在视觉上进行评估。(请注意,此假设通常是集合中最不重要的假设;如果未满足该假设,则您的beta估算值仍将是无偏的,但您的p值将不准确。)
有几种方法可以评估您个人观察的影响。可以获取索引此值的数值,但是,如果可以的话,我最喜欢的方法是折磨数据。也就是说,您依次删除每个数据点并重新拟合模型。然后,如果该观测值不属于数据集,您可以检查一下您的Beta反弹了多少。此度量称为dfbeta。这需要一些编程,但是软件通常可以自动为您提供一些标准方法。这些包括杠杆作用和库克的距离。
关于最初提出的问题,如果您想进一步了解链接函数和广义线性模型,我在这里进行了广泛讨论。基本上,选择合适的链接功能要考虑的最重要的事情是响应分配的性质。由于您认为是高斯的,因此恒等链接是合适的,您可以使用有关回归模型的标准思路来考虑这种情况。
关于“解释变量的正确度量范围”,我认为您指的是史蒂文的度量水平(即分类,有序,区间和比率)。首先要意识到的是,回归方法(包括GLiM)并不对解释变量进行假设,而是在模型中使用解释变量的方式反映了您对这些变量的信念。此外,我倾向于认为史蒂文的水平被夸大了。有关该主题的更多理论处理,请参见此处。