使用转换变量时的线性回归效应大小


9

执行线性回归时,对因变量进行对数转换(例如对数转换)以获得更好的正态分布构型通常很有用。通常,从回归检查beta值也很有用,以更好地评估结果的效果大小/实际相关性。

这就产生了一个问题,即在使用例如对数转换时,效果大小将为对数刻度,并且有人告诉我,由于所用刻度的非线性,对这些beta进行反向转换将导致无意义的值,没有任何现实世界的用法。

到目前为止,我们通常使用转换变量进行线性回归以检查显着性,然后使用原始非转换变量进行线性回归以确定效果大小。

有正确/更好的方法吗?在大多数情况下,我们使用临床数据,因此,一个现实生活中的例子将是确定某种暴露如何影响持续的变量,例如身高,体重或某些实验室测量值,然后我们得出结论,例如“暴露A产生了影响”。重量增加2公斤”。

Answers:


5

我建议转换对于获得错误的正态分布并不重要。正常性不是必要的假设。如果您有“足够”的数据,则将启动中心极限定理,并且您的标准估计将渐近为正态。另外,您可以使用引导程序作为非参数方法来估计标准误差。(为了使标准误差正确,要求同方差是单位观察值的共同方差;稳健的选项允许异方差)。

相反,转换有助于确保线性模型合适。为了大致了解这一点,让我们考虑如何解释转换模型中的系数:

  • 结果是单位,预测变量是单位:预测变量的一个单位更改会导致结果的beta单位更改。
  • 结果(单位),预测变量(对数单位):预测变量的百分之一变化会导致结果的beta / 100单位变化。
  • 结果以对数单位表示,预测变量以单位表示:预测变量的一个单位变化导致结果的beta x 100%变化。
  • 以对数为单位的结果,以对数为单位的预测变量:预测变量的1%变化导致结果的beta百分比变化。

如果需要进行转换以使模型有意义(即,保持线性),则应使用该模型的估计值进行推断。根据您不相信的模型进行的估算不是很有用。上面的解释对于理解转换模型的估计值可能非常有用,并且通常与手头的问题更相关。例如,经济学家喜欢对数对数公式,因为对贝塔的解释是一种弹性,是经济学中的一项重要指标。

我还要补充一点,因为函数的期望值不是期望值的函数,所以反向转换不起作用。beta的期望值的对数不是beta的期望值的对数。因此,您的估算器并非一成不变。这也引发了标准错误。


2

简短的回答:绝对正确,β值的反向转换毫无意义。但是,您可以将非线性报告为类似形式。“如果体重为100公斤,那么每天吃两块蛋糕将使您的体重在一周内增加约2公斤。但是,如果体重为200公斤,则体重将增加2.5公斤。有关这种非线性关系的描述,请参见图1(图1是原始数据曲线的拟合)。”

长答案:

反向转换后的值的意义各不相同,但正确完成后通常具有一定的意义。

如果您对两个x预测变量的自然对数值进行回归,其beta为0.13,截距为7.0,那么0.13(1.14)的向后转换几乎毫无意义。那是正确的。但是,7.13的反向转换将是一个可以解释为具有一定含义的值。然后,您可以减去7.0的反向变换,并留有余数,这是您在有意义的范围内的效果(152.2)。如果要查看任何预测值,则需要首先将其全部计算为对数值,然后进行逆变换。对于每个预测值,都必须分别进行此操作,并且如果绘制了曲线,则会形成一条曲线。

如果您的转换对数据的影响相对较小,通常这样做是合理的。反应时间的对数变换是可以逆变换的一种值。正确完成后,您会发现这些值似乎对原始数据进行简单的计算就接近中值。

即使这样,也必须对交互和非交互保持谨慎。相对值在整个刻度范围内变化。该分析对对数值很敏感,而向后转换的值可能显示出不同的模式,使交互看起来不应该存在,反之亦然。换句话说,只要小心,您就可以反向转换对数据进行小的更改的事物。

某些变化(例如概率的逻辑对数变换)可能会产生巨大影响,尤其是在规模接近尾声时。您永远不应该进行逆变换的地方的一个示例是,概率最高点或最低点附近的交互图。


2

我认为问题是关于(X对Y的)边际效应,而不是解释单个系数。正如人们有用地指出的那样,这些有时只能用效果大小来识别,例如当存在线性和加性关系时。

如果这是重点,那么(从概念上来说,如果不是实际的话)考虑问题的最简单方法似乎就是:

为了获得X的Y上线性正常回归模型,没有互动的边际效应,你可以只是看X上,但系数,因为估计不知道这是不是很够。无论如何,人们真正想要的是边际效应,是某种情节或总结,它可以针对一系列X值以及不确定性的度量提供有关Y的预测。通常,一个人可能想要预测的平均值Y和一个置信区间,但也可能想要一个X的Y的完整条件分布的预测。该分布比拟合模型的sigma估计要宽,因为它考虑了模型系数的不确定性。

对于像这样的简单模型,有各种封闭形式的解决方案。出于当前的目的,我们可以忽略它们,而可以更广泛地考虑如何通过模拟来获得边际效应图,这种方式可以处理任意复杂的模型。

假设您希望改变X对Y的平均值的影响,并且很高兴将所有其他变量固定为一些有意义的值。对于X的每个新值,从模型系数的分布中获取一个大小为B的样本。在R中执行此操作的一种简单方法是假设它是具有均值coef(model)和协方差矩阵的Normal vcov(model)。为每组系数计算一个新的期望Y,并以一个间隔汇总该批次。然后移至下一个X值。

在我看来,只要在每个采样步骤中也应用它们(或它们的逆函数),该方法就不会受到应用于任何变量的任何奇特变换的影响。因此,如果拟合模型具有log(X)作为预测变量,则在将新X乘以采样系数之前记录新X。如果拟合模型将sqrt(Y)作为因变量,则将样本中的每个预测均值平方,然后将其汇总为一个区间。

简而言之,更多的编程但更少的概率计算,结果是临床上可理解的边际效应。在政治学文献中有时会将此“方法”称为“澄清”,但它相当笼统。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.