当响应由第四根转换时,如何解释回归系数?


20

1/4由于异方差性,我在响应变量上使用了四次root()幂转换。但是现在我不确定如何解释回归系数。

我假设我在进行逆变换时需要将系数取四次方(请参见下面的回归输出)。所有变量均以百万美元为单位,但我想知道数十亿美元的变化。

在使另一个自变量保持恒定的同时,平均费用变化10亿美元会导致32收款变化(或32,000美元)。我接受0.000075223 * 1000(达到数十亿美元)^ 4 = 0.000032。现在,我是否将此数字乘以100万或10亿(因变量的原始单位为百万)?

lm(formula = (Collections^(1/4)) ~ Fees + DIR)

                 Estimate      Std. Error  t value            Pr(>|t|)
(Intercept)   2.094573355     0.112292375   18.653  0.0000000000000151
Fees        **0.000075223   **0.000008411    8.943  0.0000000131878713
DIR           0.000022279     0.000004107    5.425  0.0000221138881913

4
您可能需要阅读以下内容:回归系数的逆变换
gung-恢复莫妮卡

Answers:


24

最好的解决方案是从一开始就选择在研究领域中具有意义的重新表达。

(例如,针对独立因素倒退体重时,很可能是因为无论是立方根(功率)或平方根(1 / 2功率)将被指示。注意到重量为体积良好的代理,立方体根是一个长度表示的特性的线性尺寸。这具有直观的,潜在可解释的含义赋予它虽然平方根本身没有这种明确的解释,它是靠近。2 / 3功率,其具有的尺寸表面积:它可能对应于总皮肤面积。)1/31/22/3

四次方足够接近对数,您应该考虑使用对数代替该对数的含义已广为人知。但是有时候我们确实确实发现立方根或平方根或某些这样的分数幂做得很好,并且没有明显的解释。然后,我们必须做一点算术。

问题中显示的回归模型涉及因变量(“集合”)和两个自变量X 1(“费用”)和X 2(“ DIR”)。它认为YX1X2

Y1/4=β0+β1X1+β2X2+ε.

代码估计b 0 = 2.094573355β 1b 1 = 0.000075223,和β 2b 2 = 0.000022279。它还假定ε是iid正态且均值为零,并且估计ε的共同方差(未显示)。与这些估计,拟合值ÿ 1 / 4β0b0=2.094573355β1b1=0.000075223β2b2=0.000022279εY1/4

Y1/4^=b0+b1X1+b2X2.

“解释”回归系数通常意味着确定因变量的变化是由每个自变量的给定变化建议的。 这些变化是衍生物,其中链规则告诉我们都等于4 β ÿ 3。我们将插入估算值,然后说类似dY/dXi4βiY3

回归估计,在一个单位的变化将与变化相关联ÿ4 b Ŷ 3 = 4 b b 0 + b 1 X 1 + b 2 X 2 3XiY4biY^34bi(b0+b1X1+b2X2)3

该解释的依赖性X 2不是简单地用文字表达,X1X2不像没有转化的情况(在一个单元改变X 与的变化相关联b Ý)或用对数(一个在变化百分比X 所关联b 在百分比变化ÿ)。但是,通过保留解释的第一种形式,并计算4 b 1 = 4 × 0.000075223 = 0.000301YXibiYXibiY4b14×0.0000752230.000301,我们可能会说类似

费用的单位变更与 当前收款方的倍的收款更改有关;例如,如果当前收款为10,则费用的单位增加与收款增加0.301相关;如果当前收款为20,则相同的单位费用增加与收款增加2.41相关。0.000301100.301202.41


当除第四个以外的根时(例如,当使用作为响应而不是Y本身,且p为非零值时),将本分析中所有出现的“ 4 ” 替换为“ 1 / p ”。 YpYp41/p


12

此处变换的替代方法是使用链接函数幂和幂1/4的广义线性模型。可以使用的错误家族是开放的,与线性回归和条件正态性假设相比,它具有更大的灵活性。此过程的一个主要优点是可以在原始测量范围内自动生成预测,因此不存在反向转换的问题。


4

我看过使用四次根回归系数来考虑百分比变化的论文,同时避免了取日志(和丢弃观测值)。

如果我们有兴趣使用四次根来计算百分比变化,我们知道:

Y^=(α+β^1X1+β^2X2)4dY^dX1=4β^1(α+β^1X1+β^2X2)3

For the equivalent of a log-level regression, in which we're interested in the percentage change in Y resulting from a unit change in X, we have to know the levels of all the X variables:

dY^/dX1Y=4β^1α+β^1X1+β^2X2

For the equivalent of a log-log regression, in which we're interested in the percentage in Y resulting from a percentage change in X, we'd have:

dY^dX1X1Y^=4β^1X1α+β^1X1+β^2X2

It doesn't seem especially convenient (I prefer the log transformation), but it can be done, either evaluating the X values at the sample means or at hypothetical values.

I suppose, actually, you could replace the denominator with the sample average value of Y1/4, and that would be a bit more convenient.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.