Questions tagged «estimation»

这个标签太笼统了。请提供更具体的标签。对于有关特定估计量属性的问题,请改用[estimators]标签。

1
截断分布的最大似然估计
考虑从随机变量获得的独立样本,假定该随机变量遵循已知(有限)最小值和最大值和的截断分布(例如,截断的正态分布),但是参数和未知。如果遵循非截短的分布中,最大似然估计和为和从将样本均值NNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i和样本方差。但是,对于截断的分布,以这种方式定义的样本方差以为界,因此它并不总是一致的估计量:对于,它不可能收敛到当达到无穷大时,。因此,对于,和似乎不是和的最大似然估计。当然,这是可以预期的,因为和σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 截断正态分布的参数不是其均值和方差。 那么,已知最小值和最大值的截断分布的和参数的最大似然估计是多少?μμ\muσσ\sigma

4
内部与外部交叉验证和模型选择
我的理解是,通过交叉验证和模型选择,我们尝试解决两件事: P1。用我们的样本进行训练时估计人口的预期损失 P2。测量并报告我们对该估计的不确定性(方差,置信区间,偏差等) 标准做法似乎是进行反复交叉验证,因为这会减少我们估算器的差异。 但是,在报告和分析方面,我的理解是内部验证比外部验证要好,因为: 最好报告: 我们的估算器的统计数据,例如,对整个样本(在本例中为CV样本)的置信区间,方差,均值等。 比报告: 由于以下原因,我们在原始样本的保留子集上的估计量损失: (i)这将是一次测量(即使我们使用CV选择估算器) (ii)由于我们必须为保留集留出空间,因此我们将使用比原始样本小的集(例如CV集)来训练我们用于此单一测量的估计量。这导致P1中的估计更加偏颇(悲观)。 它是否正确?如果不是为什么? 背景: 很容易找到建议将样本分为两组的教科书: 该CV集,随后,反复分为训练和验证集。 在保持退出(测试)集,只在最后用来报告估计性能 我的问题是试图了解这种教科书方法的优点和优势,因为我们的目标是在本文开头真正解决问题P1和P2。在我看来,报告保留测试集是一种不好的做法,因为对CV样本的分析会提供更多信息。 嵌套K折与重复K折: 原则上,可以将保留与常规K折相结合以获得 嵌套K折。这将使我们能够评估估计量的变异性,但在我看来,对于相同数量的总训练模型(总折数),重复K折将产生比嵌套K-误差更小,更准确的估计量折。要看到这个: 对于相同的K,重复的K折使用的总样本量要比嵌套K折的样本大(即,导致较低的偏差) 100次迭代只会以嵌套K折(K = 10)给出估计值的10次测量,但是以K折为100次测量(更多的测量会导致P2的方差更低) 这个推理怎么了?

2
对数正态分布的矩估计量的偏差
我正在做一些数值实验,包括对对数正态分布进行采样,并尝试通过两种方法估算矩:ë [ X Ñ ]X∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)E[Xn]E[Xn]\mathbb{E}[X^n] 看的样本均值XnXnX^n 通过使用的样本均值估算和,然后使用对数正态分布的事实,我们有。σ 2日志(X ),登录2(X )é [ X Ñ ] = EXP (Ñ μ + (Ñ σ )2 / 2 )μμ\muσ2σ2\sigma^2log(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)E[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2) 问题是: 从实验上我发现,当我固定样本数量并将增加某个因子T 时,第二种方法的性能要比第一种更好。对此有一些简单的解释吗?μ,σ2μ,σ2\mu, \sigma^2 我附上一个图,其中x轴为T,而y轴为的值,比较的真实值(橙色线),到估算值。方法1-蓝点,方法2-绿点。y轴为对数刻度E[X2]E[X2]\mathbb{E}[X^2]E[X2]=exp(2μ+2σ2)E[X2]=exp⁡(2μ+2σ2)\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2) 编辑: 下面是一个最小的Mathematica代码,可以产生一个T的结果,并输出: ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample] (* Define variables *) n=2; …

8
如何估算参加活动的人数(例如政治集会)?
一名学生今天问我:“他们怎么知道有多少人参加了大型团体活动,例如华盛顿特区的斯图尔特/科尔伯特“恢复理智集会”?新闻媒体报道的估计数成千上万,但是用什么方法来获得这些估计,它们的可靠性如何? 一篇文章显然基于他们的停车许可估算...但是我们还有哪些其他技术?请注意,我不是在谈论捕获/捕获实验或类似的东西。 我不知道 我会事先猜测,对于这样的事情,没有具体的方法,而且有什么特别的条件(例如出售了多少停车许可证)。这是真的?为了国家安全的目的-当然-可以让一名分析员坐下来看卫星照片,然后实际计算那里的人数。我怀疑这种方法是否经常使用。



2
什么是最高密度区域(HDR)?
在统计推断问题9.6b中,提到了“最高密度区域(HDR)”。但是,我在书中找不到该术语的定义。 一个类似的术语是最高后密度(HPD)。但这并不适合这种情况,因为9.6b没有提及任何关于先验的东西。在建议的解决方案中,它只说“显然是HDR”。Ç (ÿ)C(ÿ)c(y) 还是HDR是一个包含pdf模式的区域? 什么是最高密度区域(HDR)?

4
估计学生t分布的参数
学生t分布参数的最大似然估计是什么?它们是否以封闭形式存在?快速的Google搜索没有给我任何结果。 今天,我对单变量情况很感兴趣,但是可能我将不得不将模型扩展到多个维度。 编辑:我实际上对位置和比例参数最感兴趣。现在,我可以假设自由度参数是固定的,并且可能以后使用某种数字方案来找到最佳值。

2
如何推导二项式分布的似然函数以进行参数估计?
根据Miller和Freund的《工程师概率与统计》,第8版(第217-218页),对于二项分布(伯努利试验),最大化的似然函数为 L(p)=∏ni=1pxi(1−p)1−xiL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} 如何得出这个方程式?对于其他分布,泊松和高斯,对我来说似乎很清楚。 L(θ)=∏ni=1PDF or PMF of dist.L(θ)=∏i=1nPDF or PMF of dist.L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} 但是二项式的只是一点点不同。坦率地说,如何 nCx px(1−p)n−xnCx px(1−p)n−XnC_x~p^x(1-p)^{n-x} 成为 px一世(1 − p)1个−x一世pxi(1个-p)1个-X一世p^{x_i}(1-p)^{1-x_i} 在上述似然函数中?

1
不一致的估算器是否更可取?
一致性显然是自然而重要的属性估计量,但是在某些情况下,使用不一致的估计量比使用一致的估计数更好吗? 更具体地说,是否存在一个不一致估计量的示例,该估计量对于所有有限的(相对于某些合适的损失函数)都胜过一个合理的一致估计量?ññn

3
多重删失数据的协方差矩阵的无偏估计
环境样品的化学分析通常低于报告限值或各种检测/定量限值。后者通常可以与其他变量的值成比例地变化。例如,可能需要稀释一种化合物的高浓度样品进行分析,从而导致该样品中同时分析的所有其他化合物的检测限按比例膨胀。再举一个例子,有时化合物的存在会改变测试对其他化合物的响应(“基质干扰”)。当实验室检测到这种情况时,它将相应地提高其报告限值。 我正在寻找一种实用的方法来估算此类数据集的整个方差-协方差矩阵,尤其是当许多化合物经历了超过50%的检查时,这种情况经常发生。传统的分布模型是(真实)浓度的对数呈多态正态分布,这在实践中似乎很合适,因此针对这种情况的解决方案将很有用。 (“实用”是指一种方法,该方法可以在至少一个普遍可用的软件环境(例如R,Python,SAS等)中可靠地进行编码,并且其执行速度足以支持迭代的重新计算(例如多次插补),且这种情况相当稳定[这就是为什么我不愿探索BUGS实现的原因,尽管通常欢迎使用贝叶斯解决方案]。 预先非常感谢您对此事的想法。


4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
为什么将James-Stein估计量称为“收缩”估计量?
我一直在阅读有关James-Stein估计器的信息。在本注释中,其定义为 θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X 我已经阅读了证明,但不理解以下说法: 在几何上,James–Stein估计器将每个分量向原点方向收缩。XXX “将每个分量缩小到原点”到底是什么意思?我在想类似 在这种情况下,只要,因为 XXX∥θ^−0∥2&lt;∥X−0∥2,‖θ^−0‖2&lt;‖X−0‖2,\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,(p+2)&lt;∥X∥2(p+2)&lt;‖X‖2(p+2) < \|X\|^2∥θ^∥=∥X∥2−(p+2)∥X∥2∥X∥.‖θ^‖=‖X‖2−(p+2)‖X‖2‖X‖.\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|. 人们说“缩小为零”是什么意思,因为从范式来看,JS估计量比X更接近零?L2L2L^2XXX 截至2017年9月22日的更新:今天我意识到也许我使事情变得过于复杂。似乎人们真的是说,一旦将乘以小于,即,X的每个分量都将比以前小。1 ‖ X ‖ 2 - (p + 2 )XXX111 X∥X∥2−(p+2)∥X∥2‖X‖2−(p+2)‖X‖2\frac{\|X\|^2 - (p + 2)}{\|X\|^2}XXX

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.