具有对数转换响应的线性模型与带对数链接的广义线性模型


46

这篇题为“适用于医学数据的广义线性模型之间的选择”的论文中,作者写道:

在广义线性模型中,均值是通过链接函数转换的,而不是转换响应本身的。两种转换方法可能导致完全不同的结果。例如, 对数转换后的响应的平均值与均值响应的对数不同。通常,前者不能轻易转化为平均反应。因此,转换均值通常可以更容易地解释结果,特别是在均值参数与测量响应保持相同范围的情况下。

他们似乎建议使用带有对数链接的广义线性模型(GLM)代替具有对数转换响应的线性模型(LM)。我不了解这种方法的优势,对我来说似乎很不寻常。

我的响应变量看起来呈对数正态分布。无论采用哪种方法,在系数及其标准误差方面,我都得到类似的结果。

不过我在想:如果一个变量具有对数正态分布,不是平均的对数变换变量最好在日志的平均未转换的变量,作为均值是正态分布的自然总结和日志-transformed变量是正态分布的,而变量本身不是吗?


3
如果我们有一个对数正态分布变量,我同意您的提示。但是,均值需要“反向转换”,以基于原始数据规模来获得易于理解的统计数据。这也许可以解释本文的结论。同样,在对数转换之后,我们可能无法获得正态分布的变量,在这种情况下,我不知道哪种方法会更好。
soufanom

Answers:


46

尽管看起来对数转换后的变量的均值似乎是更可取的(因为这通常是对数正态参数化的方式),但从实践的角度来看,均值的对数通常更有用。

当您的模型不完全正确时尤其如此,并引用George Box的话:“所有模型都是错误的,有些是有用的”

假设有一定数量的对数正态分布,血压说(我不是医务人员!),我们有两个人口,男人和女人。有人可能会假设女性的平均血压高于男性。 这恰好对应于询问女性平均血压的对数是否高于男性。询问男人的女性平均血压平均值是否更高是不同的

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

显然,这样做会使代数极其复杂,但它仍然有效并且含义相同。

ln(μ)σln2μln

μln

到目前为止,我们已经假定血压实际上是对数正态的。如果真实分布不完全符合对数正态分布,那么转换数据(通常)会使情况比上述情况更糟-因为我们不太了解“平均”参数的实际含义。也就是说,我们不会知道上面给出的均值和方差这两个方程是正确的。使用那些来回变换将引入其他错误。



2
Corone,我在您的答案中强调了两个重要的句子。我希望你不要介意。如果您不同意,请回滚。
Stefan

17

这是我学习生物统计学时所学的高级数据分析课程中的两分钱(尽管除了教授的笔记以外,我没有其他参考资料):

归结为您是否需要处理数据中的线性和异方差(方差不相等),或者只是线性。

她指出,转换数据会影响模型的线性和方差假设。例如,如果您的残差同时出现问题,则可以考虑转换数据,这有可能同时解决这两个问题。该变换变换误差并因此变换其方差。

相反,使用链接函数只会影响线性假设,而不会影响方差。对数取平均值(期望值),因此残差的方差不受影响。

总而言之,如果您没有关于非恒定方差的问题,她建议在转换中使用链接函数,因为您不想在这种情况下更改方差(您已经满足了假设)。


6
尽管链接功能仅影响均值,但链接功能仅是GLM的一部分。您的评论适用于带日志链接的高斯glm。一伽玛与日志链接GLM将具有相同的变异功能的假设(方差成正比均方)作为以原木和安装一个常数方差对数刻度。GLM框架内的其他族将具有其他方差函数。不幸的是,维基百科页面上有关GLM的表忽略了它提供的分布族的方差函数。
Glen_b 2014年

2
他们确实在这里提到了一些例子。这是伽玛
Glen_b 2014年

-1

如果真实的响应不是对称的(不是按正态分布),但对数变换响应是正态的,则可以使用对变换响应的线性回归,指数系数给出了几何平均值的比率。

如果真实的响应是对称的(按正态分布),但解释性(X)与响应之间的关系不是线性的,而对数期望值是X的线性函数,则使用具有对数链接的GLM,指数系数给出算术平均值的比率


这个答案不清楚。您是说“可变”而不是“真实”吗?
Michael Chernick '18

这是答案的一部分。您需要弄清楚这与问题之间的关系以及该问题的答案实际上基于此见解。
ReneBt
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.