Questions tagged «logarithm»

数字的对数是必须增加底数才能获得数字的幂。

2
什么时候(为什么)应该记录(数字)分布的对数?
假设我有一些历史数据,例如过去的股价,机票价格波动,公司的过去财务数据... 现在有人(或某些公式)出现并说“让我们使用/使用分布的对数”,这就是我为什么要去的地方? 问题: 为什么一个人应该首先获取分发日志? 分配的日志会“给出/简化”原始分配无法/不会的记录吗? 日志转换是否“无损”?即,当转换为对数空间并分析数据时,对于原始分布是否有相同的结论?怎么会? 最后何时获取分发日志?在什么条件下决定这样做? 我真的很想了解基于日志的分布(例如,对数正态),但我从未理解何时/为什么方面-即分布的对数是正态分布,那又如何呢?这甚至告诉我什么,为什么要打扰?因此,这个问题! 更新:根据@whuber的评论,我查看了这些帖子,由于某种原因,我确实了解了对数变换及其在线性回归中的应用,因为您可以在自变量和因变量的对数之间建立关系。但是,从分析分布本身的角度来看,我的问题是通用的-我无法得出结论来帮助理解采用日志来分析分布的原因本身没有关系。我希望我有道理:-/ 在回归分析中,您确实对数据的类型/拟合/分布有限制,您可以对其进行转换并定义自变量和(未经转换的)因变量之间的关系。但是,何时/为什么要对孤立的分布这样做,其中类型/适合/分布的约束不一定适用于框架(如回归)。我希望澄清后的事情比混淆起来更清楚:) 对于“为什么和什么时候”,这个问题应有明确的答案


3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


6
断轴有哪些替代方法?
通常,用户很想打破轴值以在同一张图上呈现不同数量级的数据(请参阅此处)。尽管这可能很方便,但它并不总是显示数据的首选方式(充其量可能会引起误解)。有几种显示数个数量级不同的数据的替代方法? 我可以想到两种方式,对数转换数据或使用晶格图。还有哪些其他选择?


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


1
对数概率与概率乘积
根据这一维基百科文章,可以使概率的乘积表示x⋅y为-log(x) - log(y)使计算在计算上更优化。但是,如果我尝试一个示例,请说: p1 = 0.5 p2 = 0.5 p1 * p2 = 0.25 -log(p1) - log(p2) = 2 p3 = 0.1 p4 = 0.1 p3 * p4 = 0.01 -log(p3) - log(p4) = 6.64 概率的产品p1和p2高则的一个p3和p4,但数概率较低。 怎么来的?

2
伽玛随机变量对数的偏度
考虑伽玛随机变量 。对于均值,方差和偏度,有一些简洁的公式:X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} 现在考虑对数转换后的随机变量。维基百科给出了均值和方差的公式:Y=log(X)Y=log⁡(X)Y=\log(X) E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} 通过digamma和trigamma函数定义为γ函数对数的一阶和二阶导数。 偏度的公式是什么? 会出现四伽马功能吗? (让我对此感到疑惑的是在对数正态分布和伽马分布之间进行选择,请参阅Gamma与对数正态分布。在其他方面,它们的偏度属性有所不同。特别是,对数正态的对数偏度几乎等于零。伽玛对数的偏度为负。但是如何为负?

2
为什么在执行主成分分析之前先对数据进行日志转换?
我在这里遵循教程:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/以更好地了解PCA。 本教程使用Iris数据集,并在PCA之前应用对数转换: 注意,在下面的代码中,我们按照[1]的建议对连续变量应用了对数转换,center并在调用中设置和scale等于,以在应用PCA之前标准化变量。TRUEprcomp 有人可以用简单的英文给我解释为什么您首先在Iris数据集的前四列上使用log函数。我知道它与使数据相对有关,但对日志,中心和刻度的确切功能感到困惑。 上面的参考文献[1]涉及Venables和Ripley,S-PLUS的Modern Applied Statistics,第11.1节,其中简要说明: 数据是物理测量,因此合理的初始策略是按对数比例工作。贯穿整个过程。

2
如何将负值转换为对数?
我想知道如何将负值转换为Log(),因为我有异方差数据。我读到它适用于公式,Log(x+1)但不适用于我的数据库,因此我继续得到NaN。例如,我收到以下警告消息(我没有放入完整的数据库,因为我认为使用负值之一足以显示示例): > log(-1.27+1) [1] NaN Warning message: In log(-1.27 + 1) : NaNs produced > 提前致谢 更新: 这是我的数据的直方图。我正在使用化学测量的古生物学时间序列,例如Ca和Zn之类的变量之间的差异太大,那么我需要某种类型的数据标准化,这就是为什么我要测试log()功能。 这是我的原始数据
12 r  logarithm 

2
具有对数偏移量的二进制模型(Probit和Logit)
是否有人对偏移量在probit和logit等二进制模型中的工作原理有任何推论? 我的问题是,后续窗口的长度可能会有所不同。假设患者接受了预防性治疗。这个镜头发生在不同的时间,所以如果结果是是否二进制指示任何的突发事,你需要调整的事实,有些人有更多的时间来展示症状。爆发的可能性似乎与随访时间的长短成正比。对我而言,数学上尚不清楚,具有偏移量的二进制模型如何捕获这种直觉(与Poisson不同)。 偏移量是Stata(p.1666)和R的标准选项,对于Poisson来说我很容易看到它,但是二进制情​​况有点不透明。 例如,如果我们有 在代数上等于模型,其中 是标准模型,上的系数限制为。这称为对数偏移量。如果我们将替换为或我很难弄清楚它是如何工作的。E[y|x]Z=exp{x′β},E[y|x]Z=exp⁡{x′β},\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[y|x]=exp{x′β+logZ},E[y|x]=exp⁡{x′β+log⁡Z},\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}logZlog⁡Z\log Z111exp{}exp⁡{}\exp\{\}Φ()Φ()\Phi()Λ()Λ()\Lambda() 更新#1: 下面说明了logit情况。 更新#2: 这是对非泊松模型(如Probit)的偏移量主要用途的解释。该偏移量可用于对指标函数系数进行似然比测试。首先,您要估算无约束模型并存储估算值。假设您要检验的假设。然后,创建变量,将模型删除并使用作为非对数偏移量进行拟合。这是约束模型。LR测试将两者进行比较,并且可以替代常规的Wald测试。βx=2βx=2\beta_x=2z=2⋅xz=2⋅xz=2 \cdot xxxxzzz

1
为什么要使用记录变量?
可能这是一个非常基本的问题,但我似乎无法找到一个可靠的答案。我希望在这里,我可以。 我目前正在阅读论文,以准备自己的硕士学位论文。目前,我正在阅读一篇研究推文与股市特征之间关系的论文。 在他们的假设之一中,他们提出“增加的推文交易量与交易量的增加有关”。 我希望它们以成对相关性tweetVolume与关联tradingVolume,但是相反,它们使用记录的版本进行报告:LN(tweetVolume)和LN(tradingVolume)。 对于我的论文,我复制了他们的论文的这一部分。我收集了大约100个公司的6个月以上的推文(tweetVolume)和同一时间段的股票交易量。如果我将绝对变量相关联,r=.282, p.000则会发现,但是当我使用记录的版本时,会发现r=.488, p=.000。 我不明白为什么研究人员有时会使用变量的记录版本,以及为什么相关性似乎要高得多。这是什么原因,为什么可以使用记录的变量? 非常感谢您的帮助:-)

2
对数差异时间序列模型是否优于增长率?
我经常看到作者估计“对数差异”模型,例如 log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t 我同意这是恰当的关联在变化的百分比而为。xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) 但是对数差异是一个近似值,似乎无需对数转换也可以估算一个模型,例如 yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t 此外,增长率将精确地描述百分比变化,而对数差异将仅近似于百分比变化。 但是,我发现对数差异法的使用频率更高。实际上,使用增长率似乎与解决第一个差异一样适合解决平稳性问题。实际上,我发现将对数变量转换回级别数据时,预测会变得有偏差(在文献中有时称为重新转换问题)。yt/yt−1yt/yt−1y_t/y_{t-1} 与增长率相比,使用对数差异有什么好处?增长率转换是否存在任何固有问题?我猜想我遗漏了一些东西,否则更频繁地使用该方法似乎很明显。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.