Questions tagged «exponential»

一种分布,描述泊松过程中事件之间的时间;几何分布的连续类似物。

4
泊松与指数分布之间的关系
泊松分布的等待时间是带有参数lambda的指数分布。但是我不明白。例如,泊松(Poisson)对每单位时间的到达次数进行建模。这与指数分布有何关系?假设以时间为单位的k到达概率为P(k)(由泊松建模),k + 1的概率为P(k + 1),那么指数分布如何建模它们之间的等待时间?

10
为什么假定生存时间呈指数分布?
我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说: ...如果已知生存时间呈指数分布,则观察生存时间的概率... 为什么假定生存时间呈指数分布?对我来说似乎很不自然。 为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)? 如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?

6
我如何分析地证明随机分配金额会导致指数分布(例如收入和财富)?
在《科学》杂志的当前文章中,提出了以下建议: 假设您将5亿的收入随机分配给10,000人。只有一种方法可以让每个人平均获得50,000个份额。因此,如果您随机分配收入,则极不可能实现平等。但是,有无数种方式可以给少数人很多现金,而给许多人一点钱甚至没有钱。实际上,考虑到所有可以分配收入的方式,大多数方法都会产生指数分布的收入。 我已经使用以下R代码(似乎可以肯定结果)完成了此操作: library(MASS) w <- 500000000 #wealth p <- 10000 #people d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99))) fit <- fitdistr(d,"exponential") curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE) 我的问题 我该如何分析证明结果分布确实是指数的? …

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
偏态分布的异常值检测
根据离群点的经典定义,即数据点位于上四分位数或下四分位数的1.5 * IQR范围之外,假设存在非偏态分布。对于偏斜分布(指数分布,泊松分布,几何分布等),通过分析原始函数的变换是否是检测异常值的最佳方法? 例如,松散地由指数分布控制的分布,可以使用对数函数进行转换-在什么时候可以基于相同的IQR定义查找异常值?


3
为什么nls()给我“初始参数估计时的奇异梯度矩阵”错误?
我有一些有关减排和每辆车成本的基本数据: q24 <- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") 我知道这是一个指数函数,因此我希望能够找到适合的模型: model <- nls(cost.per.car ~ a * exp(b * reductions) + c, data = q24, start = …


2
假设
证明以下陈述正确的最简单方法是什么? 假设Y1,…,Yn∼iidExp(1)Y1,…,Yn∼iidExp(1)Y_1, \dots, Y_n \overset{\text{iid}}{\sim} \text{Exp}(1)。显示∑ni=1(Yi−Y(1))∼Gamma(n−1,1)∑i=1n(Yi−Y(1))∼Gamma(n−1,1)\sum_{i=1}^{n}(Y_i - Y_{(1)}) \sim \text{Gamma}(n-1, 1)。 注意,Y(1)=min1≤i≤nYiY(1)=min1≤i≤nYiY_{(1)} = \min\limits_{1 \leq i \leq n}Y_i。 通过X∼Exp(β)X∼Exp(β)X \sim \text{Exp}(\beta),这意味着,fX(x)=1βe−x/β⋅1{x>0}fX(x)=1βe−x/β⋅1{x>0}f_{X}(x) = \dfrac{1}{\beta}e^{-x/\beta} \cdot \mathbf{1}_{\{x > 0\}}。 很容易看到Y(1)∼Exponential(1/n)Y(1)∼Exponential(1/n)Y_{(1)} \sim \text{Exponential}(1/n)。此外,我们也有∑ni=1Yi∼Gamma(α=n,β=1)∑i=1nYi∼Gamma(α=n,β=1)\sum_{i=1}^{n}Y_i \sim \text{Gamma}(\alpha = n, \beta = 1)的参数化下 fY(y)=1Γ(α)βαxα−1e−x/β1{x>0}, α,β>0.fY(y)=1Γ(α)βαxα−1e−x/β1{x>0}, α,β>0.f_{Y}(y) =\dfrac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{\alpha-1}e^{-x/\beta}\mathbf{1}_{\{x > 0\}}\text{, }\qquad \alpha, \beta> 0\text{.} 西安人给出的解决方案答案:在原始问题中使用符号: 由此,我们得到了Σ Ñ …

2
指数随机变量的条件期望
为一个随机变量(é [ X ] = 1X∼Exp(λ)X∼Exp(λ)X\sim \text{Exp}(\lambda))我凭直觉感到E[X| X>x]应该等于x+E[X],因为通过无记忆属性,X|x的分布 X>x与X相同,但向右移动x。E[X]=1λE[X]=1λ\mathbb{E}[X] = \frac{1}{\lambda}E[X|X>x]E[X|X>x]\mathbb{E}[X|X > x]x+E[X]x+E[X]x + \mathbb{E}[X]X|X>xX|X>xX|X > xXXXxxx 但是,我正在努力使用无记忆属性来提供具体的证明。任何帮助深表感谢。 谢谢。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
您如何计算
如果是指数分布(我= 1 ,。。。,Ñ )具有参数λ和X 我的是相互独立的,什么是期望X一世XiX_i(我= 1 ,。。。,Ñ )(i=1,...,n)(i=1,...,n)λλ\lambdaX一世XiX_i (∑我= 1ñX一世)2(∑i=1nXi)2 \left(\sum_{i=1}^n {X_i} \right)^2 根据和λ以及其他常数?ñnnλλ\lambda 注意:这个问题已经在/math//q/12068/4051上获得了数学答案。读者也可以看看。

1
指数随机变量可达到的相关性
一对指数分布的随机变量和的可达到相关性的范围是多少,其中为速率参数?X1∼Exp(λ1)X1∼Exp(λ1)X_1 \sim {\rm Exp}(\lambda_1)X2∼Exp(λ2)X2∼Exp(λ2)X_2 \sim {\rm Exp}(\lambda_2)λ1,λ2>0λ1,λ2>0\lambda_1, \lambda_2 > 0

3
使用Ahrens和Dieter(1972)的方法而不是通过逆变换的指数随机发生器的优点是什么?
我的问题是受R的内置指数随机数生成器函数启发的rexp()。当尝试生成指数分布的随机数时,许多教科书建议使用此Wikipedia页面中概述的逆变换方法。我知道还有其他方法可以完成此任务。特别是,R的源代码使用Ahrens&Dieter(1972)在论文中概述的算法。 我已经说服自己,Ahrens-Dieter(AD)方法是正确的。不过,与逆变换(IT)方法相比,我看不出使用它们的方法的好处。AD不仅比IT实施更复杂。似乎也没有速度上的好处。这是我的R代码,用于对两种方法及其结果进行基准测试。 invTrans <- function(n) -log(runif(n)) print("For the inverse transform:") print(system.time(invTrans(1e8))) print("For the Ahrens-Dieter algorithm:") print(system.time(rexp(1e8))) 结果: [1] "For the inverse transform:" user system elapsed 4.227 0.266 4.597 [1] "For the Ahrens-Dieter algorithm:" user system elapsed 4.919 0.265 5.213 比较这两种方法的代码,AD至少绘制两个统一的随机数(使用C函数unif_rand())以获得一个指数随机数。IT只需要一个统一的随机数。大概是R核心团队决定不实施IT,因为它假设采用对数可能比生成更统一的随机数慢。我了解对数的获取速度可能与机器有关,但至少对我而言是相反的。也许IT的数值精度与对数为0的奇异性有关吗?但是然后,R 源代码sexp.c揭示了AD的实现也失去了一些数值精度,因为C代码的以下部分从统一随机数u中删除了前导位。 double u = unif_rand(); while(u <= 0. || u …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.