假设我有一个变量,它的分布正偏斜到很高的程度,这样取对数将不足以使它在正态分布的偏斜范围内。目前我有什么选择?如何将变量转换为正态分布?
2
只是为了确保“偏斜负”表示长尾巴指向左侧还是右侧?如果它确实偏斜(左长尾),则对数转换将无法很好地工作。
—
Penguin_Knight 2014年
倒数转换比对数转换强,并且由于保留了计量单位,因此常常保留含义。例如,做某事的时间的倒数是一种速度,反之亦然。每加仑英里数或每升公里数的倒数是有道理的。倒数倒置顺序,如果可以取反,则可以取反。它们自然是Box-Cox计划的一部分,并提供了额外的细节。所有值均应为正值,以使其正常工作。(原则上,所有负值都可以使用,但实际上我还没有看到一个示例。)
—
Nick Cox
@Aksakal我认为这不是一个好主意。结果仅在值在统计上有意义。如果值是计数,则人为地将转换定义为0或1s是不确定的,无论这些值是否出现在数据中。如果值是度量,则限制意味着转换的有效性取决于度量单位的选择,这是荒谬的,好像不能完成,因为我使用了cm,但是可以完成,因为我使用mm。(对数得出的负面论点,我认为从统计学
—
Nick Cox 2014年
@Aksakal太强壮地说“日志转换不是解决偏斜的工具”:如果偏斜是唯一的问题,则日志通常效果很好。如果您的观点是边际分布的偏度不一定是主要问题,我倾向于同意。
—
Nick Cox 2014年
我当然同意,但是如果我使用平方或对数,那么我也没有义务提供参考,这里也类似。但是(例如)Tukey,JW 1977强调了倒数的用途,特别是时间和速度的用途。探索性数据分析。马萨诸塞州雷丁市:Addison-Wesley及其几篇论文。在讨论汽车性能数据时,常见的是每加仑英里数和每英里加仑数(或相反,每公里升数和每升公里数)。密度及其倒数是地理和人口统计学中相当标准的示例。
—
尼克·考克斯