Answers:
我正在使用大型数据集(机密信息,所以我不能共享太多),
可能会创建一个小的数据集,该数据集具有实际数据的某些常规特征,而没有变量名或任何实际值。
得出的结论是负二项式回归将是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同?
显然不是!您已经知道您假设响应是有条件的负二项式,而不是有条件的正常。(某些假设是共享的。例如,独立性。)
首先让我更笼统地谈谈GLM。
GLM包含多元回归,但可以通过以下几种方式进行概括:
1)响应的条件分布(因变量)来自指数族,包括泊松,二项式,伽马,正态分布和许多其他分布。
2)平均响应通过链接函数与预测变量(独立变量)相关。每个分布族都有一个关联的规范链接函数-例如,在Poisson的情况下,规范链接为log。规范链接几乎始终是默认链接,但在大多数软件中,每个发行版选择中通常都有多个选择。对于二项式,规范链接是logit(线性预测变量建模,成功的对数奇数或“ 1”),对于Gamma,规范链接是logit。链接是相反的-但在两种情况下,通常都使用其他链接功能。
因此,如果您的回答是而预测变量是和,并通过带有对数链接的泊松回归来描述的均值与的关系:X 1 X 2是X
η 日志克(称为“线性预测变量”,此处的链接函数为,符号通常用于表示链接函数)
3)响应的方差不是恒定的,而是通过方差函数(均值的函数,可能乘以缩放参数)进行操作。例如,泊松的方差等于平均值,而对于伽玛,它与平均值的平方成正比。(准分布允许方差函数与假定的分布进行某种程度的解耦)
-
那么,与您从MLR记住的假设有哪些共同点?
独立仍然存在。
不再假定同方性;方差显然是平均值的函数,因此通常随预测变量而变化(因此,虽然模型通常是异方差的,但异方差的形式是特定的)。
线性:模型的参数仍然是线性的(即线性预测变量为),但是预期响应与它们不是线性相关的(除非您使用身份链接函数!)。
响应的分布实际上更加普遍
在很多方面,输出的解释非常相似。您仍然可以查看估算的系数除以其标准误差,例如,对它们进行类似的解释(它们是渐近正态的-Wald z检验-但人们似乎仍然称它们为t比率,即使没有理论可以他们一般-分布式)。
嵌套模型之间的比较(通过类似“方差分析表”的设置)有些不同,但相似(涉及渐近卡方检验)。如果您对AIC和BIC感到满意,则可以计算得出。
通常使用类似类型的诊断显示,但可能难以解释。
如果您牢记差异,那么您的大部分线性回归直觉将继续存在。
这是一个示例,您可以用glm来完成某些事情,而线性回归实际上是做不到的(实际上,大多数人会为此使用非线性回归,但是GLM会更容易和更好)是正常的,建模为的函数:X
(即,日志链接)
也就是说,和之间的指数关系的最小二乘拟合。X
我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?
您(通常)不想转换响应(DV)。有时您可能希望变换预测变量(IV),以实现线性预测变量的线性。
我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。
是的,它可以解决过度分散的问题。但是请注意不要将条件色散与无条件色散混淆。
另一个常见的方法-如果有点杂乱无章,但我不太满意-则是准Poisson回归(过度分散的Poisson回归)。
对于负二项式,如果您指定其特定参数之一,则它属于指数族(至少通常对GLMS重新参数化的方式)。如果指定了参数,则某些软件包将适合它,而其他软件包将在GLM例程周围包装该参数的ML估计(例如通过轮廓似然),从而使过程自动化。有些会限制您使用较小的发行版集;您没有说可能使用什么软件,因此在这里很难说更多。
我认为通常,对数链接通常用于负二项式回归。
有一些入门级文档(可通过Google轻松找到),通过一些基本的Poisson GLM进行了介绍,然后进行了负二项式GLM数据分析,但是您可能更喜欢看关于GLM的书,并且可能先做一点Poisson回归只是为了习惯。
我发现一些参考对于具体分析具有负二项式分布的数据很有帮助(包括列表假设),而GLM / GLMM通常是:
贝茨(Bates),DM,B.Machler,B.Bolker和S.Walker。2015。使用lme4拟合线性混合效果模型。J.统计 软件67:1-48。
Bolker,BM,ME Brooks,CJ Clark,SW Geange,JR Poulsen,MHH Stevens和J.White。广义线性混合模型:生态学和进化的实用指南。生态与进化趋势127-135。
Zeileis A.,C。Keleiber C和S. Jackman2008。RJStat中计数数据的回归模型。软件。27:1-25
Zuur AF,EN Iene,N.Walker,AA Saveliev和GM Smith。2009年。《混合效应模型和生态学扩展》,美国纽约州R. Springer。