什么时候(为什么)应该记录(数字)分布的对数?


173

假设我有一些历史数据,例如过去的股价,机票价格波动,公司的过去财务数据...

现在有人(或某些公式)出现并说“让我们使用/使用分布的对数”,这就是我为什么要去的地方?

问题:

  1. 为什么一个人应该首先获取分发日志?
  2. 分配的日志会“给出/简化”原始分配无法/不会的记录吗?
  3. 日志转换是否“无损”?即,当转换为对数空间并分析数据时,对于原始分布是否有相同的结论?怎么会?
  4. 最后何时获取分发日志?在什么条件下决定这样做?

我真的很想了解基于日志的分布(例如,对数正态),但我从未理解何时/为什么方面-即分布的对数是正态分布,那又如何呢?这甚至告诉我什么,为什么要打扰?因此,这个问题!

更新:根据@whuber的评论,我查看了这些帖子,由于某种原因,我确实了解了对数变换及其在线性回归中的应用,因为您可以在自变量和因变量的对数之间建立关系。但是,从分析分布本身的角度来看,我的问题是通用的-我无法得出结论来帮助理解采用日志来分析分布的原因本身没有关系。我希望我有道理:-/

在回归分析中,您确实对数据的类型/拟合/分布有限制,您可以对其进行转换并定义自变量和(未经转换的)因变量之间的关系。但是,何时/为什么要对孤立的分布这样做,其中类型/适合/分布的约束不一定适用于框架(如回归)。我希望澄清后的事情比混淆起来更清楚:)

对于“为什么和什么时候”,这个问题应有明确的答案


3
因为这涵盖了几乎相同的地以前的问题在这里,并在这里,请仔细阅读这些线程并更新你的问题集中在这个问题上还没有已经解决的任何方面。还要注意,#4(和#3的一部分)是关于对数的基本问题,其答案在很多地方都可以找到。
Whuber

1
澄清有帮助。但是,您可能需要考虑一个事实,即仅具有常数项(而没有其他自变量)的回归就等于评估数据均值周围的变化。因此,如果您真的了解回归中获取因变量对数的影响,那么您已经了解了您在这里询问的(简单)情况。简而言之,一旦您对所有四个问题都有回归的答案,就无需再询问“隔离分布”了。
Whuber

@whuber:我明白了,所以我的确理解了进行回归日志的原因,但这只是因为我被教过-我从这样做的角度理解它,即确保数据符合假设线性回归 那是我唯一的理解。也许我所缺少的是对记录日志的效果的“真正理解”,因此造成了混乱……任何帮助吗?;)
博士

2
嗯,但是您所了解的还不止这些,因为在回归中使用对数后,您知道结果的解释方式有所不同,并且要小心地对拟合值和置信区间进行逆变换。我建议您不要感到困惑,即使您最初并不了解这四个问题,您可能已经知道了很多答案:-)。
Whuber

2
这里的读者可能还想看一下这些密切相关的主题:对数转换后的预测变量的解释,以及如何在线性回归中解释对数转换后的系数
gung

Answers:


98

logY=β0+β1tYYYY2。我不记得以下内容的原始来源,但它很好地总结了电源转换的作用。重要的是要注意,分布假设始终都是关于误差过程的,而不是观察到的Y,因此,除非原始序列由简单常数定义,否则分析原始序列以进行适当的转换是确定的“不对”。

应该谨慎地避免不必要的或不正确的转换(包括差异),因为它们通常是过时的/构思错误的尝试,用于处理未识别的异常/水平移动/时间趋势或参数变化或误差方差变化。从幻灯片60开始讨论一个经典的例子,这里是http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation,其中三个脉冲异常(未经处理)导致早期研究人员进行不必要的日志转换。不幸的是,我们目前的一些研究人员仍在犯同样的错误。

最佳功率转换可通过Box-Cox测试 找到,其中

  • -1。是互惠的
  • -.5是倒数平方根
  • 0.0是对数转换
  • .5是方嘟嘟变换,并且
  • 1.0是无变换的。

Yt=u+atYatatYtatYtYYYXYXlogYlogX。总而言之,转化就像毒品一样,对您来说有些好处,而有些则不利!仅应在必要时使用它们,然后再谨慎使用。


2
我同意,任何离开弃权票的人都应就为何弃权发表评论。对于Irishstat而言,如果您利用格式选项来留下答案,尤其是可用于在乳胶中标记方程式的格式选项,那么阅读您的文章会容易得多。请参阅降价编辑帮助部分。只要您在发布框的右上角键入响应(在带有问号的橙色圆圈中),该链接就可用。
安迪W

4
所引用的表 可在Douglas C. Montgomery的线性回归分析简介,Elizabeth A. Peck,G。Geoffrey Vining的文章中找到。
user1717828

@ user1717828 tu ..我一直是蒙哥马利的粉丝,因为他留着长胡子,涉及时间序列
IrishStat

第二矩和方差彼此成比例是否总是不正确?我们有一个经典的方程式:方差等于第二矩减去第一矩的平方。
information_interchange

正如您所说,方差是第二时刻的函数。我在其他地方暗示。另外,方差可以在不同的时间点(确定性)发生变化SEEpdfs.semanticscholar.org/09c4/…不能通过幂变换来弥补。
IrishStat

107

对数刻度表示相对变化(相乘),而线性刻度表示绝对变化(相加)。您何时使用它们?当您关心相对变化时,请使用对数刻度。当您关注绝对变化时,请使用线性比例。对于分配来说,这都是正确的,但对于任何数量或数量的变化也是如此。

请注意,我在此非常有意地使用“护理”一词。没有模型或目标,您的问题就无法回答。模型或目标定义了重要的规模。如果您要建模,并且该机制通过相对变化起作用,那么对数刻度对于捕获数据中可见的行为至关重要。但是,如果基础模型的机制是可加的,则需要使用线性比例。


$$$


$$$$


$

如果我们转换为日志空间,则相对变化将显示为绝对变化。

log10($1)log10($1.10)
log10($100)log10($110)

现在,考虑到日志空间绝对差异,我们发现两者都更改了.0413。

这两种变革措施都很重要,而哪一种对您来说重要,则完全取决于您的投资模型。有两种模式。(1)投资固定数量的本金,或(2)投资固定数量的股票。

模式1:以固定本金进行投资。

$$$$$$$$

模式2:固定数量的股票。

$

现在假设我们认为股票价值是随时间波动的随机变量,并且我们想提出一个模型来大致反映股票的行为。假设我们要使用此模型来最大化利润。我们计算概率分布,其x值以“股价”为单位,y值以观察给定股价的概率表示。我们对股票A和股票B进行此操作。如果您订阅第一种情况,即您有固定数量的本金要投资,那么对这些分配的日志进行记录将很有帮助。为什么?您关心的是相对空间中分布的形状。股票是从1升至10,还是从10升至100对您来说并不重要,对吧?两种情况都是10 相对收益。这自然以对数刻度分布出现,因为单位增益直接对应于倍数增益。对于两只均值不同但相对变化均匀分布(日变化百分比相同)的股票,它们的对数分布在偏移后的形状将相同。相反,它们的线性分布在形状上将不相同,其中较高值的分布具有较高的方差。

如果您在线性或绝对空间中查看这些相同的分布,您会认为较高的股价对应较大的波动。但是,出于您的投资目的,仅在相对收益很重要的情况下,这不一定是正确的。

实施例2.化学反应。 假设我们有两个分子A和B经历可逆反应。

AB

由各个速率常数定义

kabABkbaBA

它们的平衡由以下关系定义:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

编辑。有助于理解的一个有趣的相似之处是算术方法几何方法的示例。算术(香草)平均值是在假设有绝对差值的隐藏模型的情况下计算平均值的。例。1和100的算术平均值为50.5。假设我们正在谈论浓度,浓度之间的化学关系是可乘的。然后,平均浓度应真正按对数刻度计算。这称为几何平均值。1和100的几何平均值是10!就相对差异而言,这是有意义的:10/1 = 10,而100/10 = 10,即,平均值和两个值之间的相对变化是相同的。可加的是,我们发现了同样的事情。50.5-1 = 49.5,而100-50.5 = 49.5。


2
这是一个非常有用的答案,我喜欢这些示例。您能否添加更多有关“何时”以专门使用对数转换的信息?您说:“当您关注相对变化时,请使用对数刻度;当您关注绝对变化时,请使用线性刻度。” 但是在某些情况下,您关心相对变化但不应该进行对数转换吗?如果是,那么如何发现这些情况?例如,本文提出了一个案例,即不遵循日志正态分布的数据不应进行日志转换:ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88 '17

@ skeller88我同意这篇论文;对于“为什么我们要转换分布?”这个更广泛(也是哲学上的)问题,它的回答很狭窄。我认为答案是,我们有一个完善的统计工具包可用于正态分布之间的对比,而对于其他(甚至是未命名的)分布(多数)则不那么完善。一种评估外观看起来很时髦的方法可能是将其记录下来,以查看其是否看起来更正常。但正如IrishStat在上文中从技术上描述的那样,这条道路充满了危险(方钉,圆孔品种)。
vector07年

1
有一个有关这种影响的解释,以及为什么它对决策树更重要,详情见:datadata.com/…–
Keith,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.