我是否正在为所讨论的自变量寻找更好的行为分布,还是为了减少离群值的影响?
我是否正在为所讨论的自变量寻找更好的行为分布,还是为了减少离群值的影响?
Answers:
我总是很犹豫地跳入一个线程,得到如此多的出色响应,但令我惊讶的是,几乎没有答案提供任何理由更喜欢对数而不是“挤压”数据的其他转换,例如根或倒数。
在此之前,让我们以更一般的方式概括现有答案中的智慧。 当以下任一情况适用时,将指示因变量的一些非线性重新表达:
残差分布偏斜。变换的目的是获得近似对称分布的残差(当然约为零)。
残差的扩散会随因变量的值(“异方差”)系统地变化。转换的目的是消除传播中的系统变化,从而获得近似的“同调”。
使关系线性化。
当科学理论表明时。例如,化学方法通常建议将浓度表示为对数(给予活性或什至是众所周知的pH值)。
当更模糊的统计理论建议残差反映“随机误差”时,它们不会累加累积。
简化模型。例如,有时对数可以简化“交互”项的数量和复杂性。
(这些指示可能会相互冲突;在这种情况下,需要进行判断。)
那么,什么时候专门指定对数而不是其他转换呢?
残差具有“强烈”的正偏分布。John Tukey在其有关EDA的书中提供了基于残差的秩统计来估计转换(在Box-Cox族或幂转换之内)的定量方法。确实可以归结为以下事实:如果采用对数对称使残差对称,则这可能是正确的重新表达形式。否则,需要其他一些重新表达。
当残差的SD与拟合值成正比时(而不与拟合值的某些幂成正比)。
当关系接近指数时。
当残差被认为反映了乘积误差。
您确实想要一个模型,其中解释变量的边际变化根据因变量的乘性(百分比)变化来解释。
最后,使用非表达式的一些非原因:
使异常值看起来不像异常值。离群值是不适合数据的简约,相对简单描述的数据。更改描述以使异常值看起来更好通常是对优先级的错误逆转:首先获得对数据具有科学上有效,统计学上良好的描述,然后再探索任何异常值。不要让偶然的异常值决定如何描述其余数据!
因为软件是自动完成的。(说够了!)
因为所有数据都是肯定的。(正性通常意味着正偏度,但不一定如此。此外,其他转换可以更好地工作。例如,根通常对计数的数据最有效。)
要使“不良”数据(也许质量低劣)表现良好。
为了能够绘制数据。(如果需要进行变换才能绘制数据,则可能由于已经提到的一个或多个良好原因而需要进行变换。如果真正地进行变换的唯一原因是进行绘制,请继续进行下去,但只能绘制出数据。不对数据进行转换以进行分析。)
我总是告诉学生,采用自然对数来转换变量的三个原因。记录变量的原因将决定您是要记录独立变量还是因变量或两者。为了清楚起见,我正在谈论采用自然对数。
首先,如其他海报所指出的那样,提高模型拟合度。例如,如果您的残差不是正态分布的,那么采用偏斜变量的对数可以通过更改比例并使变量更“呈正态”分布来改善拟合。例如,收入被截断为零,并且经常表现出正偏斜。如果变量具有负偏斜,则可以先取变量,然后再取对数。我在这里特别考虑的是作为连续变量输入的李克特量表。虽然这通常适用于因变量,但您有时会遇到因自变量引起的残差(例如,异方差)问题,有时可以通过取该变量的对数来进行校正。例如,当运行一个模型来解释一组讲师的讲师评估并与班级进行协变量时,变量“班级规模”(即讲课的学生人数)的异常值会导致异方差,因为讲师评估中的方差较小,而较大队列比较小的队列。记录学生变量将有所帮助,尽管在此示例中,计算稳健标准误差或使用加权最小二乘可能会使解释更容易。
在模型中记录一个或多个变量的第二个原因是为了解释。我称此为便利原因。如果同时记录因变量(Y)和自变量(X),则回归系数()将具有弹性,解释将如下所示:X增加1%将导致ceteris paribus% Y的增加(平均)。仅记录回归“方程式”的一侧将导致如下所述的其他解释:β
Y和X-X的单位增加将导致增加/减少
对数Y和对数X-X增加1%将导致%增加/减少Y
对数Y和X-X增加一个单位将导致%增加/减少
Y和Log X-X增加1%将导致增加/减少
最后,这样做可能有理论上的原因。例如,我们要估计的一些模型是可乘的,因此是非线性的。采用对数可以通过线性回归估计这些模型。很好的例子包括经济学中的Cobb-Douglas生产函数和教育中的Mincer方程。Cobb-Douglas生产函数解释了如何将输入转换为输出:
哪里
是某个实体(例如公司,农场等)的总生产或产出。
是总要素生产率(不是由投入(例如,技术变化或天气)引起的输出变化)
是劳动投入
是资本投入
β&是输出弹性。
取这个的对数可以使函数易于使用OLS线性回归估算,如下所示:
有关whuber关于将对数优先于某些其他变换(例如,根或倒数)的原因的更多观点,但着重于与其他变换相比,对数变换所产生的回归系数具有独特的可解释性,请参见:
奥利弗·基恩(Oliver N. 日志转换很特殊。1995年医学统计学;14(8):811-819。DOI:10.1002 / sim.4780140810。(可疑合法性PDF可以在http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf上找到)。
如果将自变量x记录 到基数b,则可以将回归系数(和CI)解释为因变量y 每x b倍增长的变化。(因此,以2为底的对数通常很有用,因为它们对应于x每x加倍的y的变化,或者如果x改变许多数量级,则以10为底的对数。)其他转换(例如平方根)没有这种简单的解释。
如果您记录因变量y(不是原始问题,而是先前几个答案已经解决的问题),那么我会发现蒂姆·科尔(Tim Cole)的“符号”(Sympercents)概念对于呈现结果很有吸引力(我什至在论文中都使用过一次),尽管它们似乎尚未广泛流行:
蒂姆·科尔(Tim J Cole)。对称百分数:100 log(e)刻度上的对称百分数差异简化了对数转换数据的表示。医学统计学 2000;19(22):3109-3125。DOI:10.1002 / 1097-0258(20001130)19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [我很高兴Stat Med停止使用SICI作为DOI ...]
通常,使用输入变量的对数来缩放它并更改分布(例如,使其呈正态分布)。但是,不能盲目地做到这一点。您在进行任何缩放时都必须小心,以确保结果仍可解释。
大多数介绍性统计文本中都对此进行了讨论。您也可以阅读安德鲁·盖尔曼(Andrew Gelman)的论文“通过除以两个标准差来缩放回归输入”,对此进行了讨论。在“使用回归和多级/层次模型进行数据分析”的开头,他也对此进行了非常漂亮的讨论。
记录日志不是处理不良数据/异常值的适当方法。
当残差有问题时,您倾向于记录数据日志。例如,如果您针对特定协变量绘制残差并观察到增加/减少的模式(漏斗形状),则进行转换可能是合适的。非随机残差通常表示您的模型假设是错误的,即非正常数据。
某些数据类型会自动进行对数转换。例如,在处理浓度或年龄时,我通常会记录日志。
尽管转换并不是主要用于处理离群值,但它们确实有帮助,因为获取日志会挤压数据。
我想回答user1690130的问题,该问题留给了12年10月26日第一个答案的注释,内容如下:“关于某个地区的人口密度或每个学区或学校的儿童师资比等变量,该如何处理?每千人口中的凶杀案数量是多少?我看过教授们采用这些变量的对数。我不清楚为什么。例如,凶杀率已经不是一个百分比吗?对数是否会改变百分比?比率?为什么偏爱儿童教师比率的对数?”
我当时想回答一个类似的问题,并希望分享我的旧统计资料手册(JeffreyWooldridge。2006年。《计量经济学概论-一种现代方法》,第4版。第6章多元回归分析:更多问题,191页)。Wooldridge建议:
以比例或百分比形式显示的变量,例如失业率,退休金计划的参与率,通过标准化考试的学生百分比以及所报告的犯罪的逮捕率- 可以原始形式或对数形式显示, 尽管有以等级形式使用它们的趋势。这是因为任何涉及原始变量的回归系数(无论是因变量还是自变量)都将具有百分比变化解释。如果我们在回归中使用log(unem),其中unem是失业人数的百分比,那么我们必须非常小心地区分百分比变化和百分比变化。请记住,如果unem从8上升到9,这增加了一个百分点,但比最初的失业率增加了12.5%。使用对数意味着我们正在查看失业率的百分比变化:log(9)-log(8)= 0.118或11.8%,这是实际增长12.5%的对数近似值。
基于此,并piggy积Whuber先前对user1690130问题的评论,我将避免使用密度或百分率变量的对数以使解释保持简单,除非使用对数形式会产生重大折衷,例如能够减少密度的偏度或速率变量。
Shane认为采用日志来处理不良数据的观点是正确的。正如科林(Colin)关于正态残差的重要性一样。在实践中,我发现如果输入和输出变量也相对正常,则通常可以得到正常残差。在实践中,这意味着关注转换后的和未转换的数据集的分布,并确保自己变得更加正常和/或进行正态性检验(例如Shapiro-Wilk或Kolmogorov-Smirnov检验),并确定结果是否更正常。相互影响和传统也很重要。例如,在认知心理学中,通常使用反应时间的对数变换,但是至少对我而言,对对数RT的解释尚不清楚。此外,