Answers:
现在,我知道这取决于预测变量的分布和正态性
对数转换的确使数据更加统一
一般说来,这是错误的,但即使是这种情况,为什么统一性也很重要?
考虑例如
i)一个仅采用值1和2的二进制预测器。采用对数会将其保留为仅采用值0和log 2的二进制预测器。除了涉及该预测器的项的截取和定标之外,它实际上没有任何影响。甚至预测值的p值也将保持不变,拟合值也将保持不变。
ii)考虑一个左偏预测器。现在获取日志。它通常会变得更偏左。
iii)统一数据左偏
(不过,变化通常并不总是那么极端)
受异常值影响较小
一般来说,这是错误的。考虑预测变量中较低的离群值。
我考虑过对数转换所有我不感兴趣的连续变量
为了什么目的 如果最初的关系是线性的,那么它们将不再是线性的。
而且,如果它们已经弯曲,则自动执行可能会使它们变得更糟(更弯曲),而不是更好。
-
记录预测变量的日志(无论是否是最重要的)有时可能是合适的,但并非总是如此。
我认为,仅出于此目的而执行日志转换(以及任何 数据转换)是没有意义的。正如前面提到的答案,根据数据,某些转换将无效或无用。我强烈建议您阅读以下有关数据转换的 IMHO优秀入门资料:http : //fmwww.bc.edu/repec/bocode/t/transint.html。请注意,本文档中的代码示例是用Stata语言编写的,否则该文档足够通用,因此对非Stata用户也很有用。
可以在本文中找到一些用于处理与数据相关的常见问题的简单技术和工具,例如缺乏正态性,离群值和混合分布(请注意,分层作为处理混合分布的一种方法最有可能是最简单的一种-一种更通用,更复杂的方法是混合分析,也称为有限混合模型,其描述超出了此答案的范围。Box-Cox转换,在以上两个参考中简要提到的,是一个相当重要的数据转换,尤其是对于非正常数据(有一些警告)。有关Box-Cox转换的更多详细信息,请参阅此介绍性文章。
日志转换并不总是会使事情变得更好。显然,您不能对达到零或负值的变量进行对数转换,如果对数转换,即使拥抱零的正数也可能带有负离群值。
您不仅应该常规地记录所有内容,而且在进行模型拟合之前,最好考虑一下转换选定的阳性预测变量(适当地,通常是一个日志,但可能还有其他事情)的想法。响应变量也是如此。主题知识也很重要。一些来自物理学或社会学的理论或任何自然而然的方法会导致某些转变。通常,如果您看到变量正偏,那么在那儿日志(或者平方根或倒数)可能会有所帮助。
一些回归文本似乎建议您在考虑任何转换之前必须先查看诊断图,但我不同意。我认为最好在安装任何模型之前尽最大努力做出这些选择,以使您拥有最佳的起点。然后查看诊断信息,看看是否需要从那里进行调整。
snoq
在此CrossValidated线程中对数据集进行对数转换(请记住,目标是将高斯混合在一起)?
1)计数数据(y> 0)-> log(y)或y = exp(b0 + biXi)2)计数数据+零(y> = 0)->障碍物模型(二项式+计数法则)3)全部多重乘积效应(&错误)将加成4)方差〜均值-> log(y)或y = exp(b0 + biXi)5)...