Questions tagged «exponential»

一种分布,描述泊松过程中事件之间的时间;几何分布的连续类似物。

3
偏态数据回归
尝试根据人口统计和服务计算访问次数。数据非常歪斜。 直方图: qq图(左边是对数): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) city和service是因子变量。 对于所有变量,我都得到一个较低的p值***,但是我也得到了.05的一个较低的r平方。我该怎么办?另一个模型可以工作吗,例如指数模型或其他模型?

2
卡方变量的无穷集合的阶数统计(例如最小值)?
这是我第一次来,因此,请让我知道我是否可以以任何方式(包括格式,标签等)来澄清我的问题。(希望我以后可以编辑!)我试图找到参考,并尝试使用归纳法解决自己,但都失败了。 我正在尝试简化一种分布,该分布似乎可以简化为具有不同自由度的无数独立随机变量的无穷集合的有序统计。具体而言,在独立的中第个最小值的分布是什么?χ2χ2\chi^2mmmχ22,χ24,χ26,χ28,…χ22,χ42,χ62,χ82,…\chi^2_2,\chi^2_4,\chi^2_6,\chi^2_8,\ldots 我会对特殊情况感兴趣:(独立)的最小值的分布是什么?m=1m=1m=1χ22,χ24,χ26,…χ22,χ42,χ62,…\chi^2_2,\chi^2_4,\chi^2_6,\ldots 对于最小的情况,我能够将累积分布函数(CDF)编写为无限乘积,但无法进一步简化。我使用了的CDF 为 (对于m = 1,这确认了下面关于等价指数为2的等价物的第二条评论。)则最小CDF可以写为F_ {min}(x)= 1-(1-F_2(x) )(1-F_4(x))\ ldots = 1- \ prod_ {m = 1} ^ \ infty(1-F_ {2m}(x))= 1- \ prod_ {m = 1} ^ \ infty \ left (e ^ {-x / 2} \ sum_ {k = 0} ^ {m-1} \ frac {x ^ …

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
逆指数分布的均值
给定一个随机变量,G = 1的均值和方差是多少ÿ= EX p (λ )Y=Exp(λ)Y = Exp(\lambda)?G = 1ÿG=1YG=\dfrac{1}{Y} 我看了逆伽玛分布,但均值和方差仅分别针对和α > 2进行了定义...α > 1α>1\alpha>1α > 2α>2\alpha>2

1
是MLE
假设(X,Y)(X,Y)(X,Y)具有pdf Fθ(x ,y)= e- (X / θ + θ ÿ)1个x > 0 ,y> 0,θ > 0fθ(x,y)=e−(x/θ+θy)1x>0,y>0,θ>0f_{\theta}(x,y)=e^{-(x/\theta+\theta y)}\mathbf1_{x>0,y>0}\quad,\,\theta>0 样品的密度(X,Y)= (X一世,Y一世)1个≤ 我≤ Ñ(X,Y)=(Xi,Yi)1≤i≤n(\mathbf X,\mathbf Y)=(X_i,Y_i)_{1\le i\le n}从这一人群得出因此是 Gθ(x,y)= ∏我= 1ñFθ(x一世,ÿ一世)= 经验[ - Σ我= 1ñ(x一世θ+ θ ÿ一世) ] 1X1个,… ,xñ,ÿ1个,… ,yñ> 0= 经验[ − n x¯θ- θ Ñ ÿ¯] 1X(1 ),ÿ(1 )> 0,θ …

1
间距与样本均值的比率分布是多少?
令X1,…,XnX1,…,XnX_1,\dots,X_n为均值为的iid指数随机变量的样本ββ\beta,令X(1),…,X(n)X(1),…,X(n)X_{(1)},\dots,X_{(n)}为该样本的阶数统计量。让X¯=1n∑ni=1XiX¯=1n∑i=1nXi\bar X = \frac{1}{n}\sum_{i=1}^n X_i。 限定间隔Wi=X(i+1)−X(i) ∀ 1≤i≤n−1.Wi=X(i+1)−X(i) ∀ 1≤i≤n−1.W_i=X_{(i+1)}-X_{(i)}\ \forall\ 1 \leq i \leq n-1\,. 可以示出,每个WiWiW_i还指数,平均βi=βn−iβi=βn−i\beta_i=\frac{\beta}{n-i}。 问题:如何找到P(WiX¯>t)P(WiX¯>t)\mathbb{P}\left( \frac{W_i}{\bar X} > t \right),其中ttt是已知的并且非负? 尝试:我知道,这是等于1−FWi(tX¯)1−FWi(tX¯)1 - F_{W_i}\left(t \bar X\right)。因此,我使用的总概率的法如下所示: P(Wi>tX¯)=1−FWi(tX¯)=1−∫∞0FWi(ts)fX¯(s)ds,P(Wi>tX¯)=1−FWi(tX¯)=1−∫0∞FWi(ts)fX¯(s)ds, \mathbb{P}\left( W_i > t \bar X \right) = 1 - F_{W_i}\left( t \bar X \right) = 1 - \int_0^\infty F_{W_i}(ts)f_{\bar X}(s) …

1
最小的指数分布的最大似然估计
我被困在如何解决这个问题上。 因此,对于,我们有两个随机变量序列和。现在,和是具有参数和独立指数分布。然而,而不是观察和,我们观察到,而不是和。ÿ 我我= 1 ,。。。,Ñ X ÿ λ μ X ÿ ž W¯¯XiXiX_iYiYiY_ii=1,...,ni=1,...,ni=1,...,nXXXYYYλλ\lambdaμμ\muXXXYYYZZZWWW Z=min(Xi,Yi)Z=min(Xi,Yi)Z=\min(X_i,Y_i),如果Z_i = X_i则W = 1,如果Z_i = Y_i则为 0 。我必须在Z和W的基础上找到\ lambda和\ mu的最大似然估计的封闭形式。此外,我们需要证明这些是全局最大值。W=1W=1W=1Zi=XiZi=XiZ_i=X_iZi=YiZi=YiZ_i=Y_iλλ\lambdaμμ\muZZZWWW 现在,我知道两个独立指数的最小值本身就是指数,比率等于比率之和,因此我们知道ZZZ是带参数\ lambda + \ mu的指数λ+μλ+μ\lambda+\mu。因此,我们的最大似然估计器为:λ^+μ^=Z¯λ^+μ^=Z¯\hat{\lambda}+\hat{\mu}=\bar{Z}。 但是我对从这里去的方向感到困惑。我知道WWW是参数p = P(Z_i = X_i)的伯努利分布p=P(Zi=Xi)p=P(Zi=Xi)p=P(Z_i=X_i),但我不知道如何将其转换为关于参数之一的语句。例如,根据\ lambda和/或\ mu,MLE W¯W¯\bar{W}将估算什么?我知道如果Z_i = X_i,则\ mu = 0,但是在这里我很难弄清楚如何提出任何代数语句。λλ\lambdaμμ\muZi=XiZi=XiZ_i=X_iμ=0μ=0\mu=0 更新1:所以我在评论中被告知要推导ZZZ和W的联合分布的可能性WWW。 因此f(Z,W)=f(Z|W=1)⋅p+f(Z|W=0)⋅(1−p)f(Z,W)=f(Z|W=1)⋅p+f(Z|W=0)⋅(1−p)f(Z,W)=f(Z|W=1)\cdot p+f(Z|W=0)\cdot (1-p)其中p=P(Zi=Xi)p=P(Zi=Xi)p=P(Z_i=X_i)。正确?由于ZZZ和WWW不是独立的,因此在这种情况下我不知道如何导出联合分布。 因此,根据上述W的定义,得出f(Z_i,W_i)= p \ lambda …

2
如何比较其数据符合指数分布的两个样本的平均值
我有两个数据样本,一个基线样本和一个治疗样本。 假设是治疗样本的平均值高于基线样本。 两个样品的形状都是指数的。由于数据相当大,因此在运行测试时,我只具有每个样本的均值和元素数。 我如何检验该假设?我猜想这很容易,我遇到了使用F-Test的一些参考,但是我不确定参数如何映射。

1
校正正态分布的时钟精度
我有一个实验,该实验在分布于世界各地的数百台计算机上执行,以测量某些事件的发生。这些事件彼此依赖,因此我可以按升序对它们进行排序,然后计算时间差。 事件应该按指数分布,但是当绘制直方图时,这就是我得到的: 计算机上时钟的不精确性导致某些事件的时间戳早于它们所依赖的事件的时间戳。 我想知道是否可以将时钟同步归咎于PDF的峰值不为0(它们将整个对象向右移)吗? 如果时钟差异是正态分布的,我是否可以仅假设效果会相互补偿,从而仅使用计算出的时间差?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
具有模拟功能的重要性抽样低于预期的覆盖率
我正在尝试回答R中的重要性抽样评估方法积分问题。基本上,用户需要计算 ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx 使用指数分布作为重要性分布 q(x)=λ exp−λxq(x)=λ exp−λxq(x)=\lambda\ \exp^{-\lambda x} 并找到的值,该值可以更好地逼近积分(是)。我重铸问题,因为平均值的评价μ的˚F (X )超过[ 0 ,π ]:积分然后只是π μ。 λλ\lambdaself-studyμμ\muf(x)f(x)f(x)[0,π][0,π][0,\pi]πμπμ\pi\mu 因此,让是的PDF X 〜ù(0 ,π ),并且让ÿ 〜˚F (X ):现在的目标是估计p(x)p(x)p(x)X∼U(0,π)X∼U(0,π)X\sim\mathcal{U}(0,\pi)Y∼f(X)Y∼f(X)Y\sim f(X) μ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫π01cos(x)2+x21πdxμ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫0π1cos⁡(x)2+x21πdx\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx 使用重要性抽样。我在R中进行了仿真: # clear the environment and set the seed for reproducibility rm(list=ls()) gc() graphics.off() set.seed(1) # function to be integrated f <- function(x){ 1 …

1
如何计算似然函数
3个电子元件的使用寿命是 X1个= 3 ,X2= 1.5 ,X1个=3,X2=1.5,X_{1} = 3, X_{2} = 1.5, 和 X3= 2.1X3=2.1X_{3} = 2.1。根据参数的指数分布,已将随机变量建模为大小为3的随机样本θθ\theta。似然函数为θ > 0θ>0\theta > 0 F3(x | θ )=θ3È X p (- 6.6 θ )F3(X|θ)=θ3ËXp(-6.6θ)f_{3}(x|\theta) = \theta^{3} exp(-6.6\theta),在哪里 X = (2 ,1.5 ,2.1 )X=(2,1.5,2.1)x = (2, 1.5, 2.1)。 然后问题继续进行,通过找到的值确定MLE。 θθ\theta 最大化 升Ò 克F3(x | θ …

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.