改变偏斜的分布


13

假设我有一个变量,它的分布正偏斜到很高的程度,这样取对数将不足以使它在正态分布的偏斜范围内。目前我有什么选择?如何将变量转换为正态分布?


2
只是为了确保“偏斜负”表示长尾巴指向左侧还是右侧?如果它确实偏斜(左长尾),则对数转换将无法很好地工作。
Penguin_Knight 2014年

6
倒数转换比对数转换强,并且由于保留了计量单位,因此常常保留含义。例如,做某事的时间的倒数是一种速度,反之亦然。每加仑英里数或每升公里数的倒数是有道理的。倒数倒置顺序,如果可以取反,则可以取反。它们自然是Box-Cox计划的一部分,并提供了额外的细节。所有值均应为正值,以使其正常工作。(原则上,所有负值都可以使用,但实际上我还没有看到一个示例。)
Nick Cox

2
@Aksakal我认为这不是一个好主意。结果仅在值在统计上有意义。如果值是计数,则人为地将转换定义为0或1s是不确定的,无论这些值是否出现在数据中。如果值是度量,则限制意味着转换的有效性取决于度量单位的选择,这是荒谬的,好像不能完成,因为我使用了cm,但是可以完成,因为我使用mm。(对数得出的负面论点,我认为从统计学ln(ln())>1ln(ln(0.7))ln(ln(7))
Nick Cox 2014年

2
@Aksakal太强壮地说“日志转换不是解决偏斜的工具”:如果偏斜是唯一的问题,则日志通常效果很好。如果您的观点是边际分布的偏度不一定是主要问题,我倾向于同意。
Nick Cox 2014年

3
我当然同意,但是如果我使用平方或对数,那么我也没有义务提供参考,这里也类似。但是(例如)Tukey,JW 1977强调了倒数的用途,特别是时间和速度的用途。探索性数据分析。马萨诸塞州雷丁市:Addison-Wesley及其几篇论文。在讨论汽车性能数据时,常见的是每加仑英里数和每英里加仑数(或相反,每公里升数和每升公里数)。密度及其倒数是地理和人口统计学中相当标准的示例。
尼克·考克斯

Answers:


13

尝试按照Box,GEP和Cox,DR(1964),“转换分析”,直接进行Box-Cox转换,《皇家统计学会杂志,系列B,26,211--234。SAS在归一化转换中有其对数似然函数的描述,您可以使用它找到最佳的参数,这在Atkinson,AC(1985),《图解,转换和回归》(纽约,牛津大学出版社)中进行了描述。λ

具有LL功能的实现非常容易,或者,如果您有SAS或MATLAB之类的状态包,请使用其命令:MATLAB中的boxcox命令和SAS中的PROC TRANSREG

同样,在R中,这是在MASS软件包中的函数boxcox()。


5

对于正偏斜(尾部位于x轴的正端),存在平方根变换,对数变换和反/倒数变换(按严重性递增的顺序)。因此,如果日志转换不足,则可以使用下一个转换级别。Box Cox自动运行所有转换,因此您可以选择最佳转换。


-5

大多数软件套件将使用欧拉数作为默认日志库,即自然日志。您可以使用较高的基数来控制过度偏斜的数据。在语法上如何实现取决于您使用的软件。

如果一旦完成估计后就需要退出转换后的值,则使用此方法可能会更容易一些,因为您要做的就是对变量进行指数运算,无论使用什么对数。


6
这根本没有道理。以两个不同的底数为底的对数仅相乘一个乘数常数,因此两者中任何一个的偏斜度减小都是相同的。因此,在对数基数10转换后,1 10 100 1000 10000是对称的,在对数基数或对数基数2 之后,对称性也一样。唯一的区别是缩放因子。e
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.