Questions tagged «approximation»

分布,函数或其他数学对象的近似值。近似事物意味着找到它的某种表示形式,这在某些方面较为简单,但并不精确。


3
泊松分布的正态近似
这里在维基百科上这样说的: 对于足够大的λλλ值(例如λ>1000λ>1000λ>1000),均值λλλ和方差λλλ(标准偏差λ−−√λ\sqrt{\lambda})的正态分布是泊松分布的极佳近似值。如果λλλ大于约10,则如果执行了适当的连续性校正,则正态分布是一个很好的近似值,即P(X≤x),P(X≤x),P(X ≤ x),其中(小写)xxx是一个非负整数,被替换为P(X≤x+0.5).P(X≤x+0.5).P(X ≤ x + 0.5). FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)FPoisson(x;λ)≈Fnormal(x;μ=λ,σ2=λ)F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda) 不幸的是,这没有被引用。我希望能够严谨地展示/证明这一点。当\ lambda> 1000时,您怎么能说正态分布是一个很好的近似值,您如何量化这种“优秀”的近似值,使用了哪些度量?λ>1000λ>1000\lambda > 1000 我已经与这引起了最远的是在这里了约翰谈到用浆果Esseen定理和近似误差在这两个的CDF。从我可以看到,他没有尝试任何λ≥1000λ≥1000\lambda \geq 1000。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
是否应使用自由度校正来推断GLM参数?
这个问题是受到马丁(Martijn)在这里的回答的启发。 假设我们为一个像二项式或泊松模型这样的单参数系列拟合了GLM,并且它是一个完全似然过程(相对于拟泊松模型)。然后,方差是平均值的函数。对于二项式:和Poisson。var [ X] = E[ X] E[ 1 - X]变种[X]=Ë[X]Ë[1个-X]\text{var}[X] = E[X]E[1-X]var [ X] = E[ X]变种[X]=Ë[X]\text{var}[X] = E[X] 与线性回归时残差呈正态分布的情况不同,这些系数的有限精确采样分布是未知的,它可能是结果和协变量的复杂组合。此外,使用GLM的均值估算值,可以用作结果方差的插件估算值。 但是,像线性回归一样,系数具有渐近正态分布,因此在有限样本推论中,我们可以用正态曲线近似其采样分布。 我的问题是:通过对有限样本中系数的样本分布使用T分布近似值,我们可以获得任何收益吗?一方面,我们知道方差,但我们不知道确切的分布,所以当引导程序或折刀估计器可以适当地解决这些差异时,T近似似乎是错误的选择。另一方面,在实践中,也许只偏爱保守的T分布。

1
近似
我随便读了一篇经济学文章,对具有以下近似值:log(E(X))log⁡(E(X))\log(E(X)) log(E(X))≈E(log(X))+0.5var(log(X))log⁡(E(X))≈E(log⁡(X))+0.5var(log⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)), 如果X是对数正态的(我知道),作者说的就是正确的。 我不知道如何得出这种近似值。我尝试计算二阶泰勒逼近,而我想到的只是这个表达式: log(E(X))≈E(log(X))+0.5var(X)E(X)2log⁡(E(X))≈E(log⁡(X))+0.5var(X)E(X)2\log(E(X)) \approx E(\log(X))+0.5\frac{\mathrm{var}(X)}{E(X)^2}

3
离散分布近似
当您知道离散分布X的均值\ mu,方差\ sigma ^ 2,偏度\ gamma_1和超峰度\ gamma_2时,对于给定的两个整数m,n逼近的最佳方法是什么,并且从形状\ gamma_1和\ gamma_2的(非零)度量中清楚看出,法线近似不适合吗?米,Ñ μ σ 2 γ 1 γ 2 X γ 1 γ 2P[R [ Ñ ≤ X≤ 米]Pr[n≤X≤m]Pr[n \leq X \leq m]米,Ñm,nm,nμμ\muσ2σ2\sigma^2γ1个γ1\gamma_1γ2γ2\gamma_2XXXγ1个γ1\gamma_1γ2γ2\gamma_2 通常,我会使用带整数校正的正态近似值... P[R [ (Ñ - ½)≤ X≤ (m + ½)] = P[R [ (Ñ - ½)- μσ≤ ž≤ (米+ ½)- …


2
泰勒级数逼近(整个)函数的期望何时收敛?
对一些单变量随机变量和整个函数采取形式的期望(即,收敛区间为整个实线)E(f(X))E(f(X))E(f(X))XXXf(⋅)f(⋅)f(\cdot) 我有一个矩生成函数,因此可以轻松计算整数矩。在周围使用泰勒级数,然后将期望值应用于一系列中心矩 = f(\ mu)+ \ sum_ {n = 2 } ^ {\ infty} \ frac {f ^ {(n)}(\ mu)} {n!} E \ left [(x-\ mu)^ n \ right] 截断该系列, E_N(f(x) )= f(\ mu)+ \ sum_ {n = 2} ^ {N} \ frac {f ^ {(n)}(\ mu)} {n!} E \ …


2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.