Questions tagged «lognormal»

对数正态分布是对数具有正态分布的随机变量的分布。


1
为什么算术平均值小于对数正态分布中的分布平均值?
所以,我有一个随机过程生成数正态分布随机变量XXX。这是相应的概率密度函数: 我想估计分配是原始分配的几个时刻,让我们说第一次的时刻:算术平均值。为此,我绘制了100个随机变量10000次,以便可以计算10000次算术平均值估计。 有两种不同的方法可以估算均值(至少,这是我的理解:我可能是错的): 通过清楚地计算的算术平均值以通常的方式: X¯= ∑我= 1ñX一世ñ。X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. 或先根据基本正态分布估算和μ:μ = N ∑ i = 1 log (X i)σσ\sigmaμμ\mu然后平均值作为 ˉ X =EXP(μ+1μ = ∑我= 1ñ日志(X一世)ñσ2= ∑我= 1ñ(日志(X一世)- μ )2ñμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}X¯= 经验(μ + 12σ2)。X¯=exp⁡(μ+12σ2).\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2). 问题在于,与每个这些估计相对应的分布在系统上是不同的: …

3
需要算法来计算数据是从正态分布还是对数正态分布采样的相对可能性
假设您有一组值,并且想知道是从高斯(正态)分布中抽样还是从对数正态分布中抽样? 当然,理想情况下,您应该对总体或实验误差的来源有所了解,因此会有更多有用的信息来回答问题。但是在这里,假设我们只有一组数字而没有其他信息。哪个更有可能:是从高斯抽样还是从对数正态分布抽样?可能性更高?我希望的是在两个模型之间进行选择的算法,并希望量化每个模型的相对可能性。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
独立对数正态随机变量的总和是否显示对数正态?
我试图理解为什么当您增加观察次数时,两个(或多个)对数正态随机变量的总和接近对数正态分布。我在网上看过,但没有发现任何结果。 显然,如果和是独立的对数正态变量,则根据指数和高斯随机变量的性质,也是对数正态的。但是,没有理由表明也是对数正态的。XXXX × Y X + YÿÿYX× YX×ÿX \times YX+ YX+ÿX+Y 然而 如果生成两个独立的对数正态随机变量和,并令,并重复多次此过程,则的分布将显示为对数正态。随着观察次数的增加,它甚至看起来更接近对数正态分布。Y Z = X + Y ZXXXÿÿYž= X+ Yž=X+ÿZ=X+YžžZ 例如:生成一百万对后,Z的自然对数的分布在下面的直方图中给出。这显然很像正态分布,表明确实是对数正态。žžZ 有没有人对本文有任何见解或参考,可能有助于理解?

1
近似
我随便读了一篇经济学文章,对具有以下近似值:log(E(X))log⁡(E(X))\log(E(X)) log(E(X))≈E(log(X))+0.5var(log(X))log⁡(E(X))≈E(log⁡(X))+0.5var(log⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)), 如果X是对数正态的(我知道),作者说的就是正确的。 我不知道如何得出这种近似值。我尝试计算二阶泰勒逼近,而我想到的只是这个表达式: log(E(X))≈E(log(X))+0.5var(X)E(X)2log⁡(E(X))≈E(log⁡(X))+0.5var(X)E(X)2\log(E(X)) \approx E(\log(X))+0.5\frac{\mathrm{var}(X)}{E(X)^2}

1
如何使用2个百分位数计算对数正态分布的均值和标准差
我正在尝试从2个百分位数计算对数正态分布的均值和标准差。 我成功地使用X = mean + sd * Z均值和标准差并求解了正态分布的计算。 当我尝试对数正态分布做同样的事情时,我想我错过了一个方程。我看了一下维基百科并尝试使用,ln(X) = mean + sd * Z但在这种情况下,均值和标准差是用于正态分布还是对数正态,我感到困惑。 我应该使用哪些方程式?我需要超过2个百分点来解决计算问题吗?
11 r  lognormal 

1
我可以为该样本假设(对数)正态吗?
这是我的样品的QQ图(注意对数Y轴);:n=1000n=1000n = 1000 正如whuber所指出的,这表明基础分布是左偏斜的(右尾较短)。 使用R中的shapiro.test(对数转换后的数据),我得到的检验统计和的p值,这意味着我们正式拒绝了零假设在95%置信水平下的。5.172 ⋅ 10 - 13W=0.9718W=0.9718W = 0.97185.172⋅10−135.172⋅10−135.172\cdot10^{-13}H0:the sample is normal distributedH0:the sample is normal distributedH_0 : \text{the sample is normal distributed} 我的问题是:在实践中,假设(对数)正态性是否足够用于进一步分析?特别是,我想使用Cox和Land的近似方法计算相似样本均值的置信区间(在论文中进行描述:Zou,GY,cindy Yan Huo和Taleban,J.(2009)。对数正态平均值及其与环境应用的差异(环境计量学20,172–180): ci <- function (x) { y <- log(x) n <- length(y) s2 <- var(y) m <- mean(y) + s2 / 2 z …


4
如何避免回归中的log(0)项
我有以下简单的X和Y向量: > X [1] 1.000 0.063 0.031 0.012 0.005 0.000 > Y [1] 1.000 1.000 1.000 0.961 0.884 0.000 > > plot(X,Y) 我想使用X的对数进行回归。为了避免得到log(0),我尝试输入+1或+0.1或+0.00001或+0.000000000000001: > summary(lm(Y~log(X))) Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) : NA/NaN/Inf in 'x' > summary(lm(Y~log(1+X))) Call: lm(formula = Y ~ log(1 + X)) …

1
是否可以对
首先,我的意思是说,通过分析积分,可以解决积分问题,而不是像数值分析(例如梯形,Gauss-Legendre或Simpson规则)来解决这个问题? 我有一个函数F(x )= x g(x ; μ ,σ)f(x)=xg(x;μ,σ)\newcommand{\rd}{\mathrm{d}}f(x) = x g(x; \mu, \sigma)其中 G(x ; μ ,σ)= 1σx2π−−√e−12σ2(log(x)−μ)2g(x;μ,σ)=1σx2πe−12σ2(log⁡(x)−μ)2 g(x; \mu, \sigma) = \frac{1}{\sigma x \sqrt{2\pi}} e^{-\frac{1}{2\sigma^2}(\log(x) - \mu)^2} 是对数正态分布的概率密度函数,其中参数μμ\mu和σσ\sigma。在下面,我将把符号缩写为g(x)g(x)g(x)并将G(x)G(x)G(x)用作累积分布函数。 我需要计算积分 ∫baf(x)dx.∫abf(x)dx. \int_{a}^{b} f(x) \,\rd x \>. 目前,我正在使用Gauss-Legendre方法进行数值积分。因为我需要多次运行,所以性能很重要。在研究优化数值分析/其他部分之前,我想知道是否有任何积分规则可以解决这个问题。 我尝试应用“按部分积分”规则,然后我又陷入了困境, ∫udv=uv−∫vdu∫udv=uv−∫vdu\int u \,\mathrm{d}v = u v - \int v \mathrm{d}u。 u=x⟹d u …

1
什么时候可以写出“我们假设经验分布为正态分布”?
在医学等应用学科的教学中,根深蒂固的是,人群中生物医学数量的测量遵循正常的“钟形曲线”。Google对字符串“我们假定为正态分布”的搜索返回结果!听起来,“在气候变化研究中,“鉴于极少的极端数据点,我们假设温度异常呈正态分布”。或在企鹅的争议较小的文件上“假设雏鸡的孵化日期呈正态分布”;或 “我们假设GDP增长冲击呈正态分布”,23,90023,900\small 23,900, ... 和其他东西)。 最近,我发现自己质疑计数数据由于其严格的正性而被视为正态分布。当然,计数数据是离散的,这使得它们的正常性更加人为。但是,即使撇开后面的观点,为什么应该将连续的经验性测量(例如,体重,身高或血糖浓度)(通常被认为是“连续的”)视为正常的呢?他们所拥有的负面已实现的观察结果绝不会超过计数! 我了解到,当标准偏差明显低于平均值时,表明负值很少(“ 95%范围检查”),这可能是一个实际的假设,并且频率直方图也可以支持该偏差。但是问题似乎并不简单,快速搜索便产生了有趣的东西。 在《自然》杂志上,我们可以在DF Heath的一封信中找到以下陈述:“我想指出的是,对于某些类型的数据的统计分析,假设数据是从正常人群中提取的,通常是错误的。对数正态分布的假设更好。这种选择已被统计学家,经济学家和物理学家广泛使用,但由于某些原因,其他学科的科学家常常忽略了这一点。” Limpert指出,“对数正态模型可能在许多科学家认为正态为有效近似的意义上可以作为近似值”,同时指出正态拟合优度检验的功效较低,并且选择困难处理小样本时,凭经验得出正确的分布。 因此,问题是,“在没有进一步支持证据的情况下,何时可以接受应用科学中经验度量的正态分布?” 而且,为什么其他选择(例如对数正态)没有,甚至可能不会被采用?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.