Questions tagged «confidence-interval»

置信区间是一个以置信度覆盖未知参数的区间。置信区间是一个经常性的概念。它们经常与可靠的时间间隔混淆,后者是贝叶斯模型。 (1α)%

2
如何绘制具有置信区间的交互图?
我的尝试: 我无法获得置信区间 interaction.plot() 另一方面plotmeans(),“ gplot”包不会显示两个图表。此外,我不能在两个plotmeans()图之间加上两个图,因为默认情况下轴是不同的。 我使用plotCI()了'gplot'包并叠加了两个图形,但取得了一些成功,但是轴的匹配并不完美。 关于如何制作具有置信区间的交互图的任何建议?通过一个函数,或有关如何叠加plotmeans()或plotCI()图形的建议。 代码样本 br=structure(list(tangle = c(140L, 50L, 40L, 140L, 90L, 70L, 110L, 150L, 150L, 110L, 110L, 50L, 90L, 140L, 110L, 50L, 60L, 40L, 40L, 130L, 120L, 140L, 70L, 50L, 140L, 120L, 130L, 50L, 40L, 80L, 140L, 100L, 60L, 70L, 50L, 60L, 60L, 130L, 40L, 130L, …

6
关于为什么从20,000次扔掉10,000个头部的统计论点表明数据无效
假设我们反复抛硬币,而且知道正面和反面的数量应该大致相等。当我们看到10个正面和10个反面的结果,总共进行20次抛掷时,我们相信结果,并倾向于认为硬币是公平的。 好吧,当您看到10000个头和10000个尾巴等总共20,000次抛掷的结果时,我实际上会质疑结果的有效性(实验者是否伪造了数据),因为我知道这比说结果更不可能10093头和9907头。 我的直觉背后的统计论据是什么?

4
如何(数值)估算具有较大alpha和beta的beta分布的近似值
是否存在一种数值稳定的方法来计算大整数alpha,beta(例如alpha,beta> 1000000)的beta分布值? 实际上,如果使问题变得更容易,我只需要围绕模式设置99%的置信区间即可。 补充:对不起,我的问题没有我想的那么清楚。我想要做的是:我有一台检查传送带上产品的机器。这些产品的一部分被机器拒绝。现在,如果机器操作员更改某些检查设置,我想向他/她显示估计的废品率,以及一些有关当前估计的可靠性的提示。 因此,我认为我将实际拒绝率视为随机变量X,并根据拒绝对象N和接受对象M的数量计算该随机变量的概率分布。如果我假设X的先验分布均匀,则这是一个beta分布取决于N和M。我可以直接向用户显示此分布,也可以找到一个区间[l,r],以便实际拒绝率在此区间内,且p> = 0.99(使用shabbychef的术语)并显示间隔。对于较小的M,N(即,在参数更改之后),我可以直接计算分布并近似间隔[l,r]。但是对于大的M,N,这种简单的方法会导致下溢错误,因为x ^ N *(1-x)^ M很小,可以表示为双精度浮点数。 我猜我最好的选择是对小M,N使用朴素的beta分布,并在M,N超过某个阈值后立即切换为具有相同均值和方差的正态分布。那有意义吗?

1
为什么中位数的95%CI应该是?
在各种来源中(例如参见此处),给出了以下中位数的置信区间的公式(尤其是在箱须图上画凹口的目的): 95% CImedian=Median±1.57×IQRN−−√95% CImedian=Median±1.57×IQRN 95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}} 魔法常数使我发疯,我无法弄清楚它是如何获得的。各种近似值(例如,假设我们的分布是高斯分布且大)都没有任何线索-我得到的常数值不同。1.571.571.57NNN

1
逆变换的置信区间
遇到此讨论后,我提出了关于逆变换后的置信区间约定的问题。 根据本文,对数正态随机变量的均值的标称覆盖率逆变换CI为: LCL(X)=exp(Y+var(Y) üC大号(X)= exp(是+ var (Y)2+ zVAR (ÿ)ñ+ var (Y)22 (n − 1 )------------√) UCL(X)=exp⁡(Y+var(Y)2+zvar(Y)n+var(Y)22(n−1))\ UCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}+z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) L C大号(X)= exp(是+ var (Y)2− zVAR (ÿ)ñ+ var (Y)22 (n − 1 )------------√) LCL(X)=exp⁡(Y+var(Y)2−zvar(Y)n+var(Y)22(n−1))\ LCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}-z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) /而不是朴素的 /经验值((是)+ zVAR (ÿ)------√)exp⁡((Y)+zvar(Y))\exp((Y)+z\sqrt{\text{var}(Y)}) 现在,用于以下转换的配置项是什么? X--√x\sqrt{x}和X1 / 3x1/3x^{1/3} 反正弦(x--√)arcsin(x)\text{arcsin}(\sqrt{x}) 日志(x1 − x)log⁡(x1−x)\log(\frac{x}{1-x}) 1 / x1/x1/x 随机变量本身的公差区间如何(我的意思是从总体中随机抽取一个样本值)?逆变换的间隔是否存在相同的问题,或者它们具有名义覆盖率?

1
SurveyMonkey是否会忽略您获得非随机样本的事实?
SurveyMonkey提供了一些步骤和图表,可根据您的总体数量来确定在给定的误差范围或置信区间内需要的样本量。 SurveyMonkey样本大小 该图表是否只是忽略了这样一个事实,即您只会得到那些愿意回答调查问卷的人,因此不会获得随机样本? 当我输入此内容时,我会收到警告,问题似乎是主观的,所以也许我没有正确询问。它不是真的与SurveyMonkey有关,而是一个更笼统的问题-您是否可以使用一些我不知道的高级技术从自愿响应数据中实际计算出置信区间? 在出口民意测验或国家调查中,显然他们必须处理这个问题。我的教育并未深入探讨调查抽样技术,但我认为它涉及收集人口统计数据,并以此来了解您所代表的样本的代表性。 除此之外,对于一个简单的在线调查,他们是否只是假设那些愿意回答的人是整个人口的随机样本?

1
置信区间和可信区间何时重合的示例
在有关可信间隔的Wikipedia文章中,它说: 对于单个参数和可以在单个足够统计量中汇总的数据的情况,可以证明,如果未知参数是位置参数(即,前向概率函数具有以下形式),则可信区间和置信区间将重合Pr(x |μ)= f(x −μ)),先验是均匀的平坦分布; [5]并且如果未知参数是比例参数(即,前向概率函数的形式为Pr(x) | s)= f(x / s)),并带有Jeffreys的先验[5]-后者是后继的,因为采用这种比例参数的对数会将其转换为具有均匀分布的位置参数。但是,这些情况显然是特殊的(尽管很重要)。一般而言,不能做到等价。” 人们可以举一些具体的例子吗?95%CI何时真正对应于“ 95%机会”,从而“违反” CI的一般定义?



1
引导程序:估计值超出置信区间
我使用混合模型(带有交互作用的多个变量和一个随机变量)进行了引导。我得到了这个结果(只是部分): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... 现在,我想获取截距的置信区间: > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on …

3
重新加权美国社区调查多样性数据将如何影响其误差范围?
背景:我的组织目前根据美国社区调查(美国人口普查局的一项调查项目),将其劳动力多样性统计数据(例如,残疾人百分比,妇女百分比,退伍军人百分比)与这些群体的劳动力总数进行比较。这是一个不准确的基准,因为我们有一组非常具体的工作,这些工作的人口统计学与整体劳动力不同。例如,假设我的组织主要是工程师。在我所在的州,工程学只有大约20%的女性。如果我们将自己与总劳动力基准进行比较(该基准更像是50%的女性),则会引起恐慌:“我们只有20%的女性,这是一场灾难!” 实际上,我们应该期望达到20%,因为这就是劳动力状况。 我的目标:我想做的是获取《美国社区调查》的职业数据(按多样性类别),然后根据我的工作岗位构成对其进行加权。这是社会和社区服务工作者的样本数据集。我想将这些工作代码加在一起(因为我们的人行横道是工作组,而不是特定的工作代码),然后我要根据该类别中的人数(例如我们的3,000个社交网络和社区服务工作者),那么我想对所有其他工作组执行相同的操作,将这些数字加在一起,然后除以我们的工作者总数。这将为我提供一种新的重新加权的多样性衡量指标(例如,从6%的残疾人到2%的残疾人)。 我的问题:如何使误差范围适合此最终汇总基准?我没有原始的人口普查数据集(显然),但是您可以通过将表格顶部的“估计”字段切换为“误差范围”,在我提供的链接中查看每个数字的误差范围。我与这些数据一起工作的其他同事完全打算忽略误差范围,但我担心我们正在为自己创建一个无统计学意义的基准。经过上述操作后,该数据是否仍然仍然可用?


1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

2
对置信区间感到困惑
我对置信区间的概念感到困惑。具体地说,假设有一个高斯变量与σ已知的,并且我对所述下限μ 大号平均值的与95 %的置信水平。X〜ñ(μ ,σ)X∼N(μ,σ)X \sim N(\mu, \sigma)σσ\sigmaμ大号μL\mu_L95 %95%95\% 我将进行次实验,并观察X 1,X 2,X 3,X 4,X 5。555X1个X1X_1X2X2X_2X3X3X_3X4X4X_4X5X5X_5 选项1:我单独处理每个样品,我可以计算每个X 我。然后,我想有一些方法(我不知道如何)来计算实际低这些势必5 μ 大号的。μ大号= X一世- σžμL=Xi−σz\mu_L = X_i - \sigma zX一世XiX_iμ大号μL\mu_L 选项2:在另一方面,如果我采取,我可以计算μ 大号 = Ť - σ / √Ť= (X1个+ X2+ X3+ X4+ X5)/ 5T=(X1+X2+X3+X4+X5)/5T = (X_1+X_2+X_3+X_4+X_5)/5。(假设T正常,我们也可以使用t-stat。)μL=T−σ/5–√zμL=T−σ/5z\mu_L = T - \sigma/\sqrt{5}zTTT 除了选项2之外,是否还有其他方法可以基于样本计算下限?对于选项1,是否有一种方法可以基于计算出的5个下限来计算下限?555

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.