Answers:
经济学家(像我一样)喜欢对数转换。我们尤其喜欢回归模型,例如:
为什么我们这么爱它?这是我讲课时给学生的原因清单:
统计人员通常会发现经济学家对数据的这种特殊转换过于热情。我认为这是因为他们认为我的观点8和我的观点3的后半部分非常重要。因此,在数据未按对数正态分布的情况下或对数据进行记录不会导致转换后的数据在各个观察值之间具有均等方差的情况下,统计学家将倾向于不太喜欢该转换。无论如何,经济学家很可能会大跌眼镜,因为我们对转型的真正喜好是1,2和4-7点。
首先,让我们看看当记录正确偏斜的日志时通常会发生什么。
第一行包含来自三个不同且偏斜分布的样本的直方图。
底行包含其日志的直方图。
您可以看到中间的情况(
如果我们希望我们的发行版看起来更正常,那么转换肯定会改善第二种和第三种情况。我们可以看到这可能有所帮助。
那为什么行得通呢?
请注意,当我们查看分布形状的图片时,我们没有考虑均值或标准差-只会影响轴上的标签。
因此,我们可以想象看到某种“标准化”变量(虽然保持正数,但都具有相似的位置和传播范围)
相对于中位数,将日志“拉入”右侧的更多极值(高值),而最左侧的值(低值)则倾向于向后拉伸,远离中值。
在第一个图中,均值均接近178,中位数均接近150,其对数均值均接近5。
当我们查看原始数据时,最右边的值(例如750左右)位于中间值之上。在的情况下,它比中位数高5个四分位间距。
但是,当我们取原木时,它会被拉回中间值。取原木后,仅比中位数高出约2个四分位数范围。
同时,像30这样的低值(在大小为1000的样本中只有4个值低于该值)比该值的中位数以下少一个四分位数范围
当log(750)和log(30)的最终距离log(y)的中位数大约相同的距离时,750/150和150/30的比率都为5并非偶然。这就是日志的工作方式-将恒定比率转换为恒定差。
日志并非总是可以提供明显帮助的情况。例如,如果您说一个对数正态随机变量,然后将其实质上向右移动(即向其添加一个大常数),从而使平均值相对于标准偏差变大,则采用该变量的对数与形状。它将不会偏斜-但几乎不会。
但是其他转换(例如平方根)也将像这样提取较大的值。为什么日志特别受欢迎?
在上一部分的结尾,我谈到了一个原因-恒定比率趋于恒定差异。由于常数的百分比变化(例如一组数字中的每个数字增加20%)变成恒定的偏移,因此这使日志相对易于解释。所以减少
例如,许多经济和金融数据的行为都与此类似(百分比比例的恒定或接近恒定的影响)。在这种情况下,对数刻度很有意义。而且,由于该百分比规模效应。随着均值的增加,值的价差往往会更大-取对数也趋于稳定价差。通常这比正常性更重要。确实,原始图中的所有三个分布都来自标准偏差将随均值增加的族,并且在每种情况下采用对数可使方差稳定。[但是,对于所有正确的偏斜数据都不会发生这种情况。在特定应用程序区域中出现的那种数据中,这是非常普遍的。]
有时候,平方根会使事物更加对称,但与我在此处的示例中使用的相比,它倾向于以较少的偏斜分布发生。
我们可以(很容易地)构建另外三个更轻微的右偏示例,其中平方根产生一个左偏,一个对称,而第三个仍然右偏(但比以前少一点偏斜)。
左偏分布怎么办?
如果将对数转换应用于对称分布,则出于相同的原因,它往往会使其向左偏斜,这通常会使右偏斜更加对称(请参见此处的相关讨论)。
相应地,如果将对数转换应用于已经偏斜的对象,它将趋于使其均匀 更加偏斜,将东西拉到中间值上更加紧密,并且将东西拉到中间值以下更加困难。
因此,日志转换将无济于事。
另请参阅功率转换 / Tukey的阶梯。通过求幂(大于1的平方)或求幂,可以使左偏分布更加对称。如果它具有明显的上限,则可以从上限中减去观测值(给出右偏的结果),然后尝试对其进行变换。
现在,在右偏分布中,您有一些非常大的值。对数转换实质上将这些值卷入分布的中心,使其看起来更像正态分布。
所有这些答案都是自然对数转换的推销方式。它有一些使用上的注意事项,这些注意事项可推广到任何和所有转换。通常,所有数学转换都将重塑基础原始变量的PDF,无论其作用是压缩,扩展,反转,重新缩放等。从纯粹实际的角度来看,这带来的最大挑战是,当将回归模型用于预测是关键模型输出的回归模型时,因变量的转换, Y帽的转换可能会遭受重大的重新转换偏见。请注意,自然对数转换无法避免这种偏见,它们并没有像其他一些类似的作用转换那样受到它的影响。有论文提供了针对这种偏见的解决方案,但实际上效果不是很好。在我看来,您的立场更为安全,完全可以尝试转换Y并找到健壮的功能形式以保留原始指标,而不会感到困惑。例如,除了自然对数,还有其他转换可压缩偏斜和峰度变量的尾部,例如反双曲正弦或兰伯特W。这两种转换在生成对称PDF以及从重尾信息生成高斯型错误时都非常有效,但是当您尝试将预测值恢复为DV Y的原始比例时,请当心偏差。可能很难看。
提出了许多有趣的观点。还有几个?
1)我建议线性回归的另一个问题是回归方程的“左手边”是E(y):期望值。如果误差分布不对称,则研究期望值的优点就很弱。当误差不对称时,期望值不是中心关注点。人们可以探索分位数回归。然后,即使误差是非对称的,对中位数或其他百分比点的研究也可能是值得的。
2)如果选择转换响应变量,则可能希望转换具有相同功能的多个解释变量之一。例如,如果一个人具有“最终”结果作为回应,那么可能会有一个“基线”结果作为解释变量。为了解释,具有相同功能的转换“最终”和“基线”是有意义的。
3)转换解释变量的主要论点通常围绕响应的线性-解释关系。如今,人们可以考虑使用其他选项,例如受限三次样条或解释多项式的分数多项式。但是,如果可以找到线性,通常肯定有一定的清晰度。