Questions tagged «confidence-interval»

置信区间是一个以置信度覆盖未知参数的区间。置信区间是一个经常性的概念。它们经常与可靠的时间间隔混淆,后者是贝叶斯模型。 (1α)%

3
给定一个观察值的方差的置信区间
这是“第七届柯尔莫哥洛夫概率论奥林匹克竞赛”中的一个问题: 给定一个来自分布的观测值XXX,且两个参数均未知,请给出的置信区间,置信度至少为99%。Normal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 在我看来,这应该是不可能的。我有解决方案,但尚未阅读。有什么想法吗? 我将在几天后发布解决方案。 [后续编辑:官方解决方案发布在下面。Cardinal的解决方案更长,但提供了更好的置信区间。也感谢Max和Glen_b的投入。]

1
基于轮廓似然性构造置信区间
在我的基础统计学课程中,我学习了如何基于“大”样本量的渐近正态性构造95%的置信区间,例如总体均值。除了重采样方法(例如引导程序)以外,还有另一种基于“轮廓可能性”的方法。有人可以阐明这种方法吗?μμ\mu 在什么情况下,基于渐近正态性和轮廓似然性构造的95%CI是可比的?我找不到关于此主题的任何参考,请提供任何建议的参考吗?为什么没有更广泛地使用它?

2
什么是最高密度区域(HDR)?
在统计推断问题9.6b中,提到了“最高密度区域(HDR)”。但是,我在书中找不到该术语的定义。 一个类似的术语是最高后密度(HPD)。但这并不适合这种情况,因为9.6b没有提及任何关于先验的东西。在建议的解决方案中,它只说“显然是HDR”。Ç (ÿ)C(ÿ)c(y) 还是HDR是一个包含pdf模式的区域? 什么是最高密度区域(HDR)?


9
如何确定神经网络预测的置信度?
为了说明我的问题,例如,假设我有一个训练集,其中输入具有一定程度的噪声,但输出却没有噪声。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] 如果无噪声(不是实际的梯度),那么这里的输出就是输入数组的梯度。 训练网络后,对于给定的输入,输出应类似于以下内容。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

2
置信区间的覆盖范围以及常规估计
假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差,但这仍然是一个很好的权衡,因为方差的减少应足以弥补这一不足。 当我想估计置信区间时(例如使用拉普拉斯逼近法或自举法),问题就来了。具体来说,我的估算偏差会导致我的置信区间覆盖不良,这使得难以确定我的估算器的频繁性。 我已经找到了一些讨论此问题的论文(例如“基于Edgeworth展开的岭回归中的渐近置信区间”),但是数学大多超出了我的理解。在链接的论文中,方程式92-93似乎为通过岭回归进行正则化的估计值提供了校正因子,但我想知道是否存在适用于一系列不同正则化器的良好程序。 即使是一阶校正也将非常有帮助。


4
如何计算非正态分布的置信区间?
我有383个样本的某些常用值有很大偏差,如何计算平均值的95%CI?我计算出的CI似乎相去甚远,我认为这是因为制作直方图时数据看起来不像曲线。所以我认为我必须使用类似引导程序的工具,但我对此不太了解。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
RMSE的置信区间
我从总体中抽取了数据点的样本。这些点中的每一个都有一个真实值(从基本事实中获知)和一个估计值。然后,我计算每个采样点的误差,然后计算样本的均方根误差。ññn 然后,如何根据样本大小推断此RMSE的某种置信区间?ññn 如果我使用均值而不是RMSE,那么我这样做就不会有问题,因为我可以使用标准方程式 m = Zσñ√米=žσñ m = \frac{Z \sigma}{\sqrt{n}} 但我不知道这对RMSE是否有效,而不是平均值。有什么办法可以使我适应吗? (我已经看到了这个问题,但是我的人口是否分布正常没有问题,这就是那里的答案)

1
计算预测间隔以进行逻辑回归
我想了解如何为逻辑回归估计生成预测间隔。 建议我遵循Collett的Modeling Binary Data,第二版,第98-99页中的步骤。在实现了此过程并将其与R进行比较之后predict.glm,我实际上认为这本书展示的是计算置信区间而非预测区间的过程。 与相比predict.glm,Collett实施了该程序,如下所示。 我想知道:如何从这里开始产生预测间隔而不是置信区间? #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df …

1
置信区间为两个比例之比
我有两个比例(例如,控件布局中的链接上的点击率(CTR)和实验布局中的链接上的CTR),我想围绕这些比例的比率计算95%的置信区间。 我该怎么做呢?我知道我可以使用增量法来计算该比率的方差,但是我不确定除此之外该怎么办。我应该使用什么作为置信区间的中点(我的观察比率或不同的预期比率),以及应该在该比率周围取多少标准偏差? 我是否应该完全使用增量方法方差?(我真的不在乎方差,只是在一个置信区间内。)是否应该使用案例1的Fieller定理(因为我正在做比例,所以我猜我满足了正态分布的要求)?我应该只计算引导程序样本吗?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
使用多重插补时如何为混合效果模型的方差成分组合置信区间
多重插补(MI)的逻辑是不对缺失值进行一次插补,而是对几次(通常为M = 5)次进行插补,从而得出M个完整的数据集。然后使用完整数据方法分析M个完整的数据集,然后使用Rubin公式将M个估计值及其标准误差组合在一起,以获得“总体”估计值及其标准误差。 到目前为止很好,但是当涉及到混合效果模型的方差成分时,我不确定如何应用此配方。方差分量的采样分布是不对称的-因此,不能以典型的“估计±1.96 * se(估计)”形式给出相应的置信区间。因此,R包lme4和nlme甚至不提供方差分量的标准误差,而仅提供置信区间。 因此,我们可以在数据集上执行MI,然后在M个完整的数据集上拟合相同的混合效应模型后,获得每个方差分量的M个置信区间。问题是如何将这M个区间合并为一个“总体”置信区间。 我想这应该是可能的-一篇文章的作者(yucel和demirtas(2010)非正常随机效应对MI推理的影响)似乎已经做到了,但是他们没有确切解释如何做。 任何提示将是非常义务! 干杯啦

2
为逻辑回归绘制预测概率的置信区间
好的,我进行了逻辑回归,并使用该predict()函数根据我的估计来绘制概率曲线。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") 很好,但我对绘制概率的置信区间感到好奇。我已经尝试过plot.ci()但是没有运气。谁能指出一些完成此操作的方法,最好是使用car包装或基数R。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.