我正在研究统计信息,经常碰到包含的公式,log
如果我将其解释为标准含义(log
即以10 为底),或者在统计学log
中通常假定该符号为自然对数,我总是会感到困惑ln
。
我特别以“ 良好转弯频率估计 ”为例进行研究,但我的问题更多是笼统的问题。
我正在研究统计信息,经常碰到包含的公式,log
如果我将其解释为标准含义(log
即以10 为底),或者在统计学log
中通常假定该符号为自然对数,我总是会感到困惑ln
。
我特别以“ 良好转弯频率估计 ”为例进行研究,但我的问题更多是笼统的问题。
Answers:
可以安全地假定在统计信息中没有显式的base ,因为在统计信息中很少使用base 10日志。但是,其他张贴者指出,log 10或其他基准在应用统计的其他某些领域(例如信息论)中可能很常见。因此,当您阅读其他领域的论文时,有时会感到困惑。
维基百科的熵页面是混淆使用的一个很好的例子。在同一页面中,它们表示基数2,e和任何基数。您可以通过上下文确定含义是什么,但这需要阅读文本。这不是呈现材料的好方法。将其与对数页面进行比较,该页面的底数在每个公式或ln中均清晰显示。我个人认为这是可行的方法:使用对数符号时始终显示基准。这也符合ISO标准,因为该标准并未使用@Henry指出的带有日志符号的未指定基准的用法。
最后,ISO 31-11标准对以2和10为底的对数规定了和lg符号。这两天很少使用。我记得我们在高中时使用了lg,但这是在另一个世纪的另一个世纪。自从用于统计上下文以来,我从未见过它。在LaTeX中甚至没有lb的标签。
这取决于。
在某些情况下,例如将值转换为分贝,以10为底的对数在方程式中非常少见。但是,对数刻度图通常以10为底,尽管从轴上的标签进行验证很容易。
在数学上下文中,未经修饰的很可能是自然对数(即log e或ln)。另一方面,计算机科学经常使用以2为底的对数(log 2),但并非总是如此。好消息是,您可以轻松地在两个碱基之间进行转换,而使用“错误”的碱基只会使您的答案减少一个常数。
在Gale的1995年的“无泪好转”中,文本中的对数实际上是 (在第5页上这样说),但是附录中的R / S +代码使用该函数,实际上是log e或ln。就像@Henry在下面指出的那样,这没有实际区别。log
如果我不得不猜测,这里有一些启发式方法:
如果还存在2,或10的幂,则原木很可能具有相应的底数。
如果它是由积分引起的(或更普遍地涉及微积分),那么它很可能是自然对数。
如果它是由于重复地将某物分成两半而产生的(例如在二进制搜索中),则可能是。更一般而言,可以将某物除以n大约log n次。
信息理论计算通常使用,尤其是在现代工作中。但是,您可以检查单位,以确保:位 → 日志2,nat → ln,和禁令 → 日志10。
寻找函数下降或上升到,(初始值的37%和63%)表明自然对数。
要回答您的问题:不,您不能假设对数使用通用的固定表示法。
最近在SE.Math中讨论了一个类似的问题:三种对数之间有什么区别?从数学的角度来看。通常,有不同的符号取决于习惯( seems of use in medical research) or language (for instance in German, Russian, French). Unfortunately, the same notation sometimes ends up representing different definitions. Quoting from the above SE.Math link:
Notation (almost) unambiguously denotes the natural logarithm (latin: logarithmus naturalis), or logarithm in base . The notation should be the adopted notation for the natural logarithm, and it is so in mathematics. However, it often represents the "most natural" depending on the field: I learned it as the base- logarithm () at school, and it is often used this way in engineering (for instance in the definition of decibels)
Quite often, if you are not concerned with the meaning of physical units (like decibels @Matt Krause), nor interested in specific rates of change (in biostatistics, the -ratio for fold-change often denotes the base- logarithm ), it is likely that the natural logarithm () is used.
For instance, in power or Box-Cox transforms (for variance stabilization), the natural logarithm appears as a limit when the exponent tends to .
Going back to your initial motivation, the Good-Turing Frequency Estimation, it is interesting to read The Population Frequencies of Species and the Estimation of Population Parameters, I. J. Good, Biometrika, 1953. Here, he used logarithmms in different contexts: variable transformation for variance stabilisation (mentioning Bartlett and Anscombe), sum of harmonic series, entropy. We see that he generally uses as the natural logarithm, and once in a while in the paper specifies or , when the context requires it. For variance stabilization, or basic entropy estimation, a factor on the logarithm does not change much the result, as the outcome allows a linear change.
在赤池信息准则中,基础是和 最大可能性 正在与参数数量进行加法比较 :
因此,如果在AIC中对数使用其他任何底数,似乎最终可能得出错误的结论并选择错误的模型。
ln
考虑的是。但是,两者是相关的:log(x) = ln(x) / ln(10) = ln(x) / 2.303
,并且ln似然函数在与log10似然函数相同的点到达极值。