为什么不对数转换所有不重要的变量呢?


10

书籍和讨论经常指出,当遇到预测变量的问题(其中有几个)时,有可能对数转换。现在,我知道这取决于预测变量的分布和正态性,并不是回归的假设;但是对数转换确实会使数据更加统一,不受异常值的影响等。

我考虑过对数转换所有不是主要变量的连续变量,即我仅调整的变量。

错了吗 好?无用?

Answers:


24

现在,我知道这取决于预测变量的分布和正态性

对数转换的确使数据更加统一

一般说来,这是错误的,但即使是这种情况,为什么统一性也很重要?

考虑例如

i)一个仅采用值1和2的二进制预测器。采用对数会将其保留为仅采用值0和log 2的二进制预测器。除了涉及该预测器的项的截取和定标之外,它实际上没有任何影响。甚至预测值的p值也将保持不变,拟合值也将保持不变。

在此处输入图片说明

ii)考虑一个左偏预测器。现在获取日志。它通常会变得更偏左。

在此处输入图片说明

iii)统一数据左偏

在此处输入图片说明

(不过,变化通常并不总是那么极端)

受异常值影响较小

一般来说,这是错误的。考虑预测变量中较低的离群值。

在此处输入图片说明

我考虑过对数转换所有我不感兴趣的连续变量

为了什么目的 如果最初的关系是线性的,那么它们将不再是线性的。

在此处输入图片说明

而且,如果它们已经弯曲,则自动执行可能会使它们变得更糟(更弯曲),而不是更好。

-

记录预测变量的日志(无论是否是最重要的)有时可能是合适的,但并非总是如此。


2
非常感谢您的出色回答。我认为我们中的许多人,至少是我,需要以这种方式看到它。但是您是否也同意偏斜的数据应该进行对数转换?比其他歪斜和形式更多?
亚当·罗宾逊

1
一般而言,不。也许是在某些非常具体的条件下。
Glen_b-恢复莫妮卡2014年

我也很惊讶地看到没有人提到该模型的可解释性。如果对因变量进行对数转换,则解释模型会变得更加困难-特别是对于外行或没有统计/数学背景的人。例如,假设您有一个模型,该模型以英尺为单位预测树的高度,给定树干的周长以英寸为单位。所述的解释的存在,对于在圆周上的一英寸增加,树的平均高度增加由日志脚的一半是比较麻烦的(续)β^=0.50
StatsStudent

(不是)比方说,如果树干周长增加1英寸,则树的平均高度将增加半英尺。后者在没有计算器的情况下更易于解释,也更容易在现场进行计算。
StatsStudent 2015年

10

我认为,仅出于此目的而执行日志转换(以及任何 数据转换)是没有意义的。正如前面提到的答案,根据数据,某些转换将无效无用。我强烈建议您阅读以下有关数据转换的 IMHO优秀入门资料http : //fmwww.bc.edu/repec/bocode/t/transint.html。请注意,本文档中的代码示例是用Stata语言编写的,否则该文档足够通用,因此对非Stata用户也很有用。

可以在本文中找到一些用于处理与数据相关的常见问题的简单技术和工具,例如缺乏正态性离群值混合分布(请注意,分层作为处理混合分布的一种方法最有可能是最简单的一种-一种更通用,更复杂的方法是混合分析,也称为有限混合模型,其描述超出了此答案的范围。Box-Cox转换,在以上两个参考中简要提到的,是一个相当重要的数据转换,尤其是对于非正常数据(有一些警告)。有关Box-Cox转换的更多详细信息,请参阅此介绍性文章


2
很好的参考书Aleksandr。感谢您分享急需的怀疑论。谢谢。
亚当·罗宾逊

1
@AdamRobinsson:我的荣幸,亚当!很高兴您喜欢我的回答。
Aleksandr Blekh 2014年

8

日志转换并不总是会使事情变得更好。显然,您不能对达到零或负值的变量进行对数转换,如果对数转换,即使拥抱零的正数也可能带有负离群值。

您不仅应该常规地记录所有内容,而且在进行模型拟合之前,最好考虑一下转换选定的阳性预测变量(适当地,通常是一个日志,但可能还有其他事情)的想法。响应变量也是如此。主题知识也很重要。一些来自物理学或社会学的理论或任何自然而然的方法会导致某些转变。通常,如果您看到变量正偏,那么在那儿日志(或者平方根或倒数)可能会有所帮助。

一些回归文本似乎建议您在考虑任何转换之前必须先查看诊断图,但我不同意。我认为最好在安装任何模型之前尽最大努力做出这些选择,以使您拥有最佳的起点。然后查看诊断信息,看看是否需要从那里进行调整。


所有人都补充说,这些考虑因素适用于重要和不重要的预测因素。
罗斯·

谢谢@rvl!我总是对何时以及如何选择转换之间的不一致感到困惑;正如您所写的,书中经常提到,在接触回归之前,需要检查所有变量的形式。感谢您提供您的见解。
亚当·罗宾逊2014年

@rvl,谢谢您的回答。您是否会snoq在此CrossValidated线程中对数据集进行对数转换(请记住,目标是将高斯混合在一起)?
朱巴卜

-3

1)计数数据(y> 0)-> log(y)或y = exp(b0 + biXi)2)计数数据+零(y> = 0)->障碍物模型(二项式+计数法则)3)全部多重乘积效应(&错误)将加成4)方差〜均值-> log(y)或y = exp(b0 + biXi)5)...


这个答案很难阅读,也不清楚是否尝试回答这个问题。
Juho Kokkala 2015年

1
电报和未经格式化的演示使此答案难以理解。您认为可以将您的想法扩展为英语,并使用作为公式吗?TEX
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.