对数转换与偏斜分布一起使用的原因是什么?


18

我曾经听说

在线性回归或分位数回归中,对数变换是右偏分布最流行的一种

我想知道这句话背后有什么原因吗?为什么对数转换适合右偏分布?

左偏分布如何?

Answers:


26

经济学家(像我一样)喜欢对数转换。我们尤其喜欢回归模型,例如:

lnYi=β1+β2lnXi+ϵi

为什么我们这么爱它?这是我讲课时给学生的原因清单:

  1. 它尊重Y。在经济学和其他领域的许多实际应用中,本质上是一个正数。可能是价格,税率,生产数量,生产成本,某种商品的支出等。未经转换的线性回归的预测值可能为负。对数转换回归的预测值永远不会为负。它们是ÿ Ĵ = EXP β 1 + β 2 LN X ĴY(参见的更早的推导答案)。Y^j=exp(β1+β2lnXj)1Nexp(ei
  2. log-log功能形式非常灵活。注意: 这给了我们: 这是一个很大不同的形状。的线(其斜率将由确定EXPβ1,因此其可具有任意的正斜率),双曲线,抛物线,和一个“平方根状”的形状。我已经绘制它β1=0ε=0,但在实际应用中这些都不是真的,使得斜率和曲线的在高度
    lnÿ一世=β1个+β2lnX一世+ϵ一世ÿ一世=经验值β1个+β2lnX一世经验值ϵ一世ÿ一世=X一世β2经验值β1个经验值ϵ一世
    喜欢log-log功能形式exp(β1)β1=0ϵ=0将由那些控制而不是设置为1。X=1
  3. 正如TrynnaDoStat所提到的,对数-对数表单“绘制”了大的值,这通常使数据更易于查看,有时会标准化观察值之间的方差。
  4. 系数被解释为弹性。它是X增长1%时Y增长的百分比。β2YX
  5. 如果是一个虚拟变量,则将其包括在内而不进行记录。在这种情况下,β 2是在的百分差值ÿ之间X = 1个类别和X = 0的类别。Xβ2YX=1X=0
  6. Xβ2YXXY
  7. β2XYβ2
  8. 如果您的数据是以日志为正态分布的,那么日志转换将使它们以正态分布。正态分布的数据有很多用处。

统计人员通常会发现经济学家对数据的这种特殊转换过于热情。我认为这是因为他们认为我的观点8和我的观点3的后半部分非常重要。因此,在数据未按对数正态分布的情况下或对数据进行记录不会导致转换后的数据在各个观察值之间具有均等方差的情况下,统计学家将倾向于不太喜欢该转换。无论如何,经济学家很可能会大跌眼镜,因为我们对转型的真正喜好是1,2和4-7点。


7
这些是标准点,但最好将它们简洁地组合在一起。许多帐户仅涵盖其中的一些要点。小点:我认为您在经济学家的态度与统计学家的态度之间的对比有点过头了。例如,链接对错误族的重要性贯穿于广义线性模型文献,尽管它可能会吹大号。Keene,Oliver N.1995。对数转换是特殊的。医学统计学 14:811-819。DOI:10.1002 / sim.4780140810是另一个示例。
尼克·考克斯

21

首先,让我们看看当记录正确偏斜的日志时通常会发生什么。

第一行包含来自三个不同且偏斜分布的样本的直方图。

底行包含其日志的直方图。

在此处输入图片说明

您可以看到中间的情况(yxz

如果我们希望我们的发行版看起来更正常,那么转换肯定会改善第二种和第三种情况。我们可以看到这可能有所帮助。


那为什么行得通呢?

请注意,当我们查看分布形状的图片时,我们没有考虑均值或标准差-只会影响轴上的标签。

因此,我们可以想象看到某种“标准化”变量(虽然保持正数,但都具有相似的位置和传播范围)

相对于中位数,将日志“拉入”右侧的更多极值(高值),而最左侧的值(低值)则倾向于向后拉伸,远离中值。

在此处输入图片说明

在第一个图中,xyz均值均接近178,中位数均接近150,其对数均值均接近5。

当我们查看原始数据时,最右边的值(例如750左右)位于中间值之上。在的情况下y,它比中位数高5个四分位间距。

但是,当我们取原木时,它会被拉回中间值。取原木后,仅比中位数高出约2个四分位数范围。

同时,像30这样的低值(在大小为1000的样本中只有4个值低于该值)比该值的中位数以下少一个四分位数范围 y

在此处输入图片说明

当log(750)和log(30)的最终距离log(y)的中位数大约相同的距离时,750/150和150/30的比率都为5并非偶然。这就是日志的工作方式-将恒定比率转换为恒定差。

日志并非总是可以提供明显帮助的情况。例如,如果您说一个对数正态随机变量,然后将其实质上向右移动(即向其添加一个大常数),从而使平均值相对于标准偏差变大,则采用该变量的对数与形状。它将不会偏斜-但几乎不会。


但是其他转换(例如平方根)也将像这样提取较大的值。为什么日志特别受欢迎?

在上一部分的结尾,我谈到了一个原因-恒定比率趋于恒定差异。由于常数的百分比变化(例如一组数字中的每个数字增加20%)变成恒定的偏移,因此这使日志相对易于解释。所以减少0.162

例如,许多经济和金融数据的行为都与此类似(百分比比例的恒定或接近恒定的影响)。在这种情况下,对数刻度很有意义。而且,由于该百分比规模效应。随着均值的增加,值的价差往往会更大-取对数也趋于稳定价差。通常这比正常性重要。确实,原始图中的所有三个分布都来自标准偏差将随均值增加的族,并且在每种情况下采用对数可使方差稳定。[但是,对于所有正确的偏斜数据都不会发生这种情况。在特定应用程序区域中出现的那种数据中,这是非常普遍的。]

有时候,平方根会使事物更加对称,但与我在此处的示例中使用的相比,它倾向于以较少的偏斜分布发生。

我们可以(很容易地)构建另外三个更轻微的右偏示例,其中平方根产生一个左偏,一个对称,而第三个仍然右偏(但比以前少一点偏斜)。


左偏分布怎么办?

如果将对数转换应用于对称分布,则出于相同的原因,它往往会使其向左偏斜,这通常会使右偏斜更加对称(请参见此处的相关讨论)。

相应地,如果将对数转换应用于已经偏斜的对象,它将趋于使其均匀 更加偏斜,将东西拉到中间值上更加紧密,并且将东西拉到中间值以下更加困难。

因此,日志转换将无济于事。

另请参阅功率转换 / Tukey的阶梯。通过求幂(大于1的平方)或求幂,可以使左偏分布更加对称。如果它具有明显的上限,则可以从上限中减去观测值(给出右偏的结果),然后尝试对其进行变换。


谢谢Glen_b的出色回答。您向我们提供了经验数据来说明,然后就此转换的原因/方式进行直观说明。非常感激。
Ram

5

y=ln(x)x

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

现在,在右偏分布中,您有一些非常大的值。对数转换实质上将这些值卷入分布的中心,使其看起来更像正态分布。


1

所有这些答案都是自然对数转换的推销方式。它有一些使用上的注意事项,这些注意事项可推广到任何和所有转换。通常,所有数学转换都将重塑基础原始变量的PDF,无论其作用是压缩,扩展,反转,重新缩放等。从纯粹实际的角度来看,这带来的最大挑战是,当将回归模型用于预测是关键模型输出的回归模型时,因变量的转换, Y帽的转换可能会遭受重大的重新转换偏见。请注意,自然对数转换无法避免这种偏见,它们并没有像其他一些类似的作用转换那样受到它的影响。有论文提供了针对这种偏见的解决方案,但实际上效果不是很好。在我看来,您的立场更为安全,完全可以尝试转换Y并找到健壮的功能形式以保留原始指标,而不会感到困惑。例如,除了自然对数,还有其他转换可压缩偏斜和峰度变量的尾部,例如反双曲正弦或兰伯特W。这两种转换在生成对称PDF以及从重尾信息生成高斯型错误时都非常有效,但是当您尝试将预测值恢复为DV Y的原始比例时,请当心偏差。可能很难看。


3
这似乎最终集中在处理重尾分布上(按峰度,您的意思是拥有高峰度)。我认为您需要阐明与问题的关系。同样,兰伯特的w ^有关的问题尚不清楚。我不明白对数变换比对等变换(哪一个是?)更不可能是对数变换的可能问题,因为在这方面,在其他方面,对数的行为与您作为一个更大家庭的成员所期望的一样。例如在平方根和倒数之间居于中间。
尼克·考克斯

3
我们都对规则的各个方面感到不满,但我们中的许多人继续在这里进行互动,因为我们已经看到了规则的智慧,并找到了建设性的方法来应对明显的限制。该规则是基本原则:不回答问题的帖子不属于该帖子。它倾向于保持每个线程的连贯性,有限性,整洁性和主题性。这是制作比您在任何其他问答网站上都更加有用和有趣的资料的关键。
ub

3
您已经对此进行了修改,但是在我看来,作为答案它仍然很成问题。1.您通过多种方式扩大了问题,例如,也引入了重尾分布。在某些线程中这样做可能是合理的事情,但是这是一个重点突出的线程,具有高质量的答案,而此处的额外答案大体上是使水变得浑浊。当存在一个问题的良好答案时,就必须有一个很好的理由才需要一个新的答案。
尼克·考克斯

4
2.关于转型偏见的主张仍然挥之不去;符合要求的答案没有技术上的精确性,包括神秘的断言,即日志比其他类似的转换问题少。
尼克·考克斯

4
3.关于兰伯特的细节 w ^仍然是神秘的。从更广泛的意义上讲,信息是可疑的,除了asinh和Lambert可以是好的。这似乎是矛盾的,并且没有得到很好的解释。您显然非常有知识,但是这需要更简洁的说明风格才能有价值。因此,我不能凭良心赞成这一点。我认为您较早前决定将其删除。在这里和其他地方,我认为您的简历风格不是很吸引人:没有严格的规定,但必须重点关注答案。闲聊,不愉快的帖子通常不太适合。
尼克·考克斯

0

提出了许多有趣的观点。还有几个?

1)我建议线性回归的另一个问题是回归方程的“左手边”是E(y):期望值。如果误差分布不对称,则研究期望值的优点就很弱。当误差不对称时,期望值不是中心关注点。人们可以探索分位数回归。然后,即使误差是非对称的,对中位数或其他百分比点的研究也可能是值得的。

2)如果选择转换响应变量,则可能希望转换具有相同功能的多个解释变量之一。例如,如果一个人具有“最终”结果作为回应,那么可能会有一个“基线”结果作为解释变量。为了解释,具有相同功能的转换“最终”和“基线”是有意义的。

3)转换解释变量的主要论点通常围绕响应的线性-解释关系。如今,人们可以考虑使用其他选项,例如受限三次样条或解释多项式的分数多项式。但是,如果可以找到线性,通常肯定有一定的清晰度。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.