如何在线性回归中解释对数变换的系数?


10

我的情况是:

我已经对数转换了1个连续因变量和1个连续预测变量,以对它们的残差进行归一化,以进行简单的线性回归。

对于将这些转换后的变量与其原始上下文相关联的任何帮助,我将不胜感激。

我想使用线性回归来基于2010年缺勤的天数来预测2011年缺勤的天数。大多数学生缺勤0天或仅几天,数据正向左偏斜。因此,需要进行变换以使用线性回归。

我对两个变量都使用了log10(var + 1)(对于缺勤0天的学生使用+1)。我使用回归是因为我也想添加分类因素-性别/种族等。

我的问题是:

我想反馈给的听众不会理解log10(y)= log(constant)+ log(var2)x(坦率地说,我也不是)。

我的问题是:

a)是否有更好的方法来解释回归中的转换变量?即在2010年永远错失1天,而在2011年错失2天,而在2010年永远错失1个日志单位,2011年是否错失x个日志单位?

b)具体而言,鉴于此消息来源的引用语段如下:

“这是数学标准化考试成绩每增加一个单位的负二项式回归估计,因为模型中的其他变量保持不变。如果学生将她的数学考试成绩提高一个点,则对数的对数差在使模型中的其他变量保持不变的同时,预期计数将减少0.0016单位。”

我想知道:

  • 这句话是不是说UNTRANSFORMED变量数学分数的每增加一单位,常数(a)UNTRANSFORMED就会减少0.0016 ,那么如果数学分数上升两点,我就要从常数a减去0.0016 * 2?
  • 这是否意味着我通过使用指数(a)和指数(a + beta * 2)来获得几何平均值,并且我需要计算这两者之间的百分比差,以说明预测变量的影响/有因变量?
  • 还是我完全错了?

我正在使用SPSS v20。很抱歉在一个很长的问题中提出这个问题。



8
您是否考虑过使用泊松回归?它自然是由相关计数数据指示的,对数转换的成功与泊松分布是一致的。这些系数将根据预期缺课一天的概率成比例增加来解释。一个优点是不需要对零进行特殊处理(尽管考虑零膨胀的替代模型仍然是一个好主意)。
ub

嗨,Whuber,是的,我当时在考虑泊松回归,但不确定是否要这样做或选择负二项式回归。我猜想负二项式是因为数据过于分散-即均值低于数据集中的方差(因此正偏)。同样,严格地说,一年中的上课次数有上限,而泊松假设分母是无限的?还是您仍然认为泊松更合适?不幸的是,据我所知,SPSS不支持零充气模型...)感谢Whuber :)
JimBob 2011年

3
我没有发现无限支持Poisson分布的问题:这类似于使用正态分布来建模必须为非负值的值。如果与不可能的值相关的机会很小,那么它仍然可以是一个好的模型。负二项式是代替Poisson的标准替代方法,用于测试拟合度和过度分散性。是个好主意。如果SPSS太有限,请使用其他东西!(R有零充气模型的软件包;请搜索此站点。)
whuber

2
我同意@whuber,我认为您可能需要ZIP或ZINB模型。我要补充一点的是,它们也可以通过PROC COUNTREG(在ETS中)在SAS中使用,从SAS 9.2开始,在PROC GENMOD(在STAT中)中可用
Peter Flom

Answers:


7

我认为更重要的一点是在@whuber的评论中建议的。您的整个方法是错误的,因为通过取对数,您实际上将2010年或2011年失踪天数为零的任何学生都排除在了数据集之外。听起来这些人足够多了,而且我相信您的结果会根据您所采用的方法是错误的。

相反,您需要使用泊松响应拟合广义线性模型。除非您已为适当的模块付费,否则SPSS无法执行此操作,因此建议您升级到R。

您仍然会遇到系数解释的问题,但这仅次于拥有基本合适的模型的重要性。


为什么不使用转换?这样可以解决您提出的问题。但是,逆变换会稍微复杂一些,并且解释会更加困难。这里有一篇关于它的文章:stats.stackexchange.com/questions/18694/…– toypajmexlog(x+1)
2015年

3

我同意其他答复者的意见,特别是在模型形式方面。但是,如果我理解您提出问题的动机,那么您是在向普通受众讲话,并希望传达实质性信息分析的(理论上)含义。为此,我比较了各种“情况”下的预测值(例如,估计的错过的天数)。根据您选择的模型,当预测变量处于某些特定的固定值(例如,其中位数或零)时,您可以比较期望变量或因变量的值,然后显示预测变量的“有意义”变化影响预测。当然,您必须将数据转换回开始时可以理解的原始规模。我之所以说“有意义的变化”,是因为通常标准的“ X中的一个单位变化”并不能传达自变量的真实含义或缺乏其含义。对于“出勤数据”,我不确定会发生什么变化。(如果某个学生在2010年和2011年有一天没有错过任何一天,我不确定我们会学到什么。但我不知道。)


2

如果我们有模型,那么我们可以预期单位增加1会导致Y​​的单位增加。相反,如果我们有,那么我们的增加1%。在Y中产生单位增加。X Y = b log X X b log 1.01 Y=bXXY=blog(X)Xblog(1.01)

编辑:糟糕,没有意识到您的因变量也进行了日志转换。这是一个链接,上面有一个很好的示例,描述了所有三种情况:

1)仅对Y进行变换2)仅对预测变量进行变换3)对Y和预测变量都进行变换

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
嗨,JC,谢谢您的答复。我采用了同时转换我的因变量和自变量以保持一致性的方法,但是我已经读到,与IV相比,只有DV真正需要进行正态转换。
JimBob 2011年

我实际上已经看过您建议的链接(谢谢),但在两点上并不清楚,特别是在将几何均值与“现实生活”进行比较时,但我想使用几何均值与建模有关x的变化对y的影响,而不是x的每单位变化的y的结果?我想我需要回去再读一遍...
JimBob 2011年

2

我经常使用对数转换,但是我倾向于使用二进制协变量,因为它导致乘数方面的自然解释。假设您要预测给定的,假设3个二元协变量,和取。现在,代替呈现:X 1 X 2 X 3 { 0 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2

您可以简单地显示:

YC M1X1 M2X2 M3X3

其中:,和是乘数。也就是说,每次协变量等于1时,预测值都将乘以。例如,如果,和,则您的预测是:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3

我正在使用因为这并不是均值的准确预测:对数正态分布的均值参数通常不是随机变量的均值(因为经典线性回归就是这种情况,对数转换)。我在这里没有确切的参考,但是我认为这是直接的推理。Y


3
您无需担心对数正态问题:无论如何,乘数都是正确的。(异方差模型会出现问题。)这是因为,其中是。顺便说一句,请扫描您对的定义是否有错字。E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.