对几个连续变量进行对数转换的原因是什么?


16

我一直在做分类问题,并且阅读了很多人的代码和教程。我注意到的一件事是,许多人采用np.loglog连续变量,例如loan_amountapplicant_income等。

我只想了解其背后的原因。它有助于提高我们的模型预测准确性。它是强制性的吗?还是背后有逻辑?

如果可能的话,请提供一些解释。谢谢。

Answers:


27

当变量跨几个数量级时,便会执行此操作。收入是一个典型的例子:收入的分配是“幂定律”,这意味着绝大多数收入是小额的,很少收入是大笔的。

由于对数的数学特性,以对数刻度研究了这种类型的“胖尾”分布:

ØGXñ=ñØGX

这意味着

ØG104=4ØG10

ØG103=3ØG10

从而将

104-103
的巨大差异转换为较小的
4-3
使值具有可比性。


2
很好的答案,特别是关于指数分布。
Kasra Manshaei '18

1
@KasraManshaei我特别在谈论幂律(收入是一个典型的例子):按照定义,指数分布中的极值非常罕见。因此,跨越许多数量级的数据通常是幂定律。
Duccio Piovani

1
但是在这种情况下当然会记录---> ln,这绝对不会改变答案的重点。
杜乔·皮奥瓦尼

是的,我知道了。正如您所说的,变化不大。
Kasra Manshaei '18

7

主要是因为分布偏斜。对数自然会减小变量的动态范围,因此可以保留差异,而比例不会显着偏斜。想象一下,有人得到1亿贷款,有人得到10000,有些为0。任何要素缩放都可能使0和10000如此接近,因为无论如何最大的数字都会突破界限。对数解决了这个问题。


Manshael,所以我可以使用MinMaxScaler或StandardScaler对吗?或是否需要记录日志?
西库玛(Sai Kumar)'18年

必要。如果使用定标器,它们会极大地压缩较小的值。那就是我的意思。
Kasra Manshaei

2
是。如果考虑值1000,000,000以及10000和0。在许多情况下,第一个太大了,无法让您的模型正确看到其他人。但是,如果采用对数,则分别为9、4和0。如您所见,动态范围减小了,而差值几乎被保留了。它来自您功能中的任何指数性质。在这些情况下,您需要对数作为其他答案。希望它能对您有所帮助:)
Kasra Manshaei

2
好吧,缩放!想象两个具有正态分布的变量(因此不需要对数),但是其中一个变量的大小为10ish,另一个变量的大小为milion。再次将它们馈入模型使小模型不可见。在这种情况下,您可以使用缩放器使它们的缩放比例合理。
Kasra Manshaei

1
@KasraManshaei日志(0)= -inf
JAD

5

除了其他的答案,服用另一种副作用日志X是,如果0<X<,再次例如用贷款或收入,基本上任何不能为负数,域名变为-<日志X<

如果您使用的模型基于关于X分布的假设,这将特别有用,特别是在返回变量中。例如,线性模型中正态性的假设。


3

由于的事实,对数转换非常有用的另一个原因对比率数据起作用log(A/B) = -log(B/A)。如果在原始比例上绘制比率分布,则您的点落在范围内(0, Inf)。任何小于1的比率都将被压缩到绘图的一小部分,此外,如果将比率改为(B/A)而不是,则绘图看起来将完全不同(A/B)。如果您以对数刻度执行此操作,则该范围现在为(-Inf, +Inf),这意味着小于1和大于1的比率会更平均地分布。如果决定翻转该比率,则只需将图翻转到0左右,否则看起来完全一样。在对数刻度上,将比率显示为并不重要1/10 or 10/1,这在没有明显选择该比率的情况下很有用。


3

您应该查看对数正态分布

人们可能会使用日志,因为他们认为日志会压缩规模或某种程度,但是日志的原则用途是您正在处理具有对数正态分布的数据。这往往是诸如薪水,房屋价格等之类的东西,其中所有价值均为正值,大多数价值相对较低,但有些价值非常大。

如果您可以获取数据的对数并变为正态,则可以利用正态分布的许多功能,例如定义良好的均值,标准差(以及z得分),对称性等。

同样,日志的增加与非日志值的乘积相同。这意味着您已经将错误加成的分布变成了乘法(即基于百分比)的分布。由于OLS回归之类的技术需要正常的误差分布,因此处理日志将其适用性从加性过程扩展到乘法过程。


1
如果要以无分配方式比较商品,采用百分位数或十分位数而不是原始值而不是百分比更好吗?
威廉·佩恩

1
@WilliamPayne当然,你可以使用免费的分布方法,但你也放弃了一些有分配的权力...... 如果你的分布假设是正确的。有了更大(正确)的假设,就会产生更大的力量。百分位数本质上是等级,因此您丢弃了所拥有的距离信息,并且特定样本的百分位数是点估计。通常,我们更喜欢分布而不是点。
韦恩

0

我要说的主要原因不是分布式的,而是因为非线性关系。日志经常捕获饱和的关系...

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.