Answers:
当变量跨几个数量级时,便会执行此操作。收入是一个典型的例子:收入的分配是“幂定律”,这意味着绝大多数收入是小额的,很少收入是大笔的。
由于对数的数学特性,以对数刻度研究了这种类型的“胖尾”分布:
这意味着
和
从而将
主要是因为分布偏斜。对数自然会减小变量的动态范围,因此可以保留差异,而比例不会显着偏斜。想象一下,有人得到1亿贷款,有人得到10000,有些为0。任何要素缩放都可能使0和10000如此接近,因为无论如何最大的数字都会突破界限。对数解决了这个问题。
您应该查看对数正态分布。
人们可能会使用日志,因为他们认为日志会压缩规模或某种程度,但是日志的原则用途是您正在处理具有对数正态分布的数据。这往往是诸如薪水,房屋价格等之类的东西,其中所有价值均为正值,大多数价值相对较低,但有些价值非常大。
如果您可以获取数据的对数并变为正态,则可以利用正态分布的许多功能,例如定义良好的均值,标准差(以及z得分),对称性等。
同样,日志的增加与非日志值的乘积相同。这意味着您已经将错误加成的分布变成了乘法(即基于百分比)的分布。由于OLS回归之类的技术需要正常的误差分布,因此处理日志将其适用性从加性过程扩展到乘法过程。