Questions tagged «confidence-interval»

置信区间是一个以置信度覆盖未知参数的区间。置信区间是一个经常性的概念。它们经常与可靠的时间间隔混淆,后者是贝叶斯模型。 (1α)%

1
置换检验的置信区间和P值不确定性
我正在学习随机测试。我想到两个问题: 是的,通过随机化测试(我认为与置换测试相同)来计算p值很容易而且很直观。但是,如何像普通参数测试一样生成95%的置信区间? 当我阅读华盛顿大学有关置换测试的文档时,第13页上有一句话说: 对于1000个排列....,p = 0.05附近的不确定度约为 。±1%±1%\pm 1\% 我不知道我们如何得到这种不确定性。


5
置信区间有用吗?
在常客统计中,置信区间为95%是一个区间生成过程,如果重复无数次,则95%的时间将包含真实参数。为什么这有用? 置信区间常常被误解。它们不是我们可以95%确定参数所在的间隔(除非您使用的是类似的贝叶斯可信度间隔)。置信区间对我来说就像个诱饵和开关。 我可以想到的一个用例是提供不能拒绝参数为该值的原假设的值范围。p值不能提供此信息,但是更好吗?不会这么误导? 简而言之:为什么我们需要置信区间?如果正确解释,它们如何有用?

2
了解多项式回归(MLR)的置信区间的形状
我很难掌握多项式回归的置信区间的形状。 这是一个人工示例,。左图显示了UPV(无标度预测方差),右图显示了置信区间和(人工)在X = 1.5,X = 2和X = 3处的测量点。Y^=a+b⋅X+c⋅X2Y^=a+b⋅X+c⋅X2\hat{Y}=a+b\cdot X+c\cdot X^2 基础数据的详细信息: 数据集由三个数据点(1.5; 1),(2; 2.5)和(3; 2.5)组成。 每个点被“测量”了10次,每个测量值属于。对30个结果点进行了具有多项式模型的MLR。y±0.5y±0.5y \pm 0.5 的置信区间计算与式 和 (两个公式均取自Myers,Montgomery,Anderson-Cook的“ Response Surface Methodology”第四版,第407和34页)UPV=Var[y^(x0)]σ^2=x′0(X′X)−1x0UPV=Var[y^(x0)]σ^2=x0′(X′X)−1x0 UPV=\frac{Var[\hat{y}(x_0)]}{\hat{\sigma}^2}=x_0'(X'X)^{-1}x_0 y^(x0)−tα/2,df(error)σ^2⋅x′0(X′X)−1x0−−−−−−−−−−−−−−√y^(x0)−tα/2,df(error)σ^2⋅x0′(X′X)−1x0 \hat{y}(x_0) - t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} ≤μy|x0≤y^(x0)+tα/2,df(error)σ^2⋅x′0(X′X)−1x0−−−−−−−−−−−−−−√.≤μy|x0≤y^(x0)+tα/2,df(error)σ^2⋅x0′(X′X)−1x0. \leq \mu_{y|x_0} \leq \hat{y}(x_0) + t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} . tα/2,df(error)=2tα/2,df(error)=2t_{\alpha /2, df(error)}=2和。σ^2=MSE=SSE/(n−p)∼0.075σ^2=MSE=SSE/(n−p)∼0.075 \hat{\sigma}^2=MSE=SSE/(n-p)\sim0.075 我对置信区间的绝对值不是特别感兴趣,而是对仅取决于的UPV形状感兴趣。x′0(X′X)−1x0x0′(X′X)−1x0x_0'(X'X)^{-1}x_0 图1: 设计空间之外的非常高的预测方差是正常的,因为我们在推断 …

1
计算模式的置信区间?
我正在寻找有关计算模式的置信区间的参考(一般而言)。Bootstrap似乎是自然的首选,但正如Romano(1988)所讨论的那样,标准的bootstrap对于mode来说是失败的,并且它没有提供任何简单的解决方案。自本文以来,有什么变化吗?计算模式置信区间的最佳方法是什么?最好的基于引导的方法是什么?您可以提供任何相关参考吗? Romano,JP(1988)。引导模式。统计数学研究所的年鉴,40(3),565-586。

1
非参数自举p值与置信区间
语境 这有点类似于此问题,但我认为这并非完全相同。 当您寻找有关如何执行自举假设检验的说明时,通常会指出,使用经验分布作为置信区间是可以的,但是您需要从原假设下的分布中正确地自举以获得p-值。例如,请参阅对此问题的公认答案。在互联网上进行的一般搜索似乎似乎可以找到类似的答案。 不使用基于经验分布的p值的原因是,大多数时候我们没有平移不变性。 例 让我举一个简短的例子。我们有一个硬币,我们想进行一个单面测试,看看正面的频率是否大于0.5 我们执行试验,得到个头。该测试的真实p值为。n=20n=20n = 20k=14k=14k = 14p=0.058p=0.058p = 0.058 另一方面,如果我们从20个磁头中引导14个,则可以有效地从且的二项分布中进行采样。通过减去0.2来偏移此分布,当针对获得的经验分布测试观察值0.7时,我们将得到几乎没有显着结果。n=20n=20n = 20p=1420=0.7p=1420=0.7p = \frac{14}{20}=0.7 在这种情况下,差异很小,但是当我们测试的成功率接近1时,差异会更大。 题 现在让我提出我的问题的实质:对于置信区间,同样的缺陷也成立。实际上,如果置信区间具有规定的置信度水平则在无效假设下不包含参数的置信区间等效于在重要性水平为拒绝无效假设。αα\alpha1−α1−α1- \alpha 为什么基于经验分布的置信区间被广泛接受而p值却未被接受? 是否存在更深层的原因,或者人们是否没有那么自信的保守度? Peter Dalgaard 在这个答案中给出的答案似乎与我的观点一致。他说: 这种推理方式没有什么特别错误的,至少没有(比)CI的计算差很多。 (很多)从哪里来?这意味着以这种方式生成p值会稍差一些,但在这一点上没有详细说明。 最后的想法 同样在《埃夫隆(Efron)和蒂布希尔尼(Tibshirani)的引言》中,它们为置信区间分配了很多空间,但没有为p值分配空间,除非它们是在适当的零假设分布下生成的,除了关于有关置换测试的章节中的置信区间和p值。 让我们也回到我链接的第一个问题。我同意迈克尔·切尔尼克(Michael Chernick)的回答,但他再次重申,在某些情况下,基于经验自举分布的置信区间和p值同样不可靠。它没有解释为什么您会发现很多人告诉您间隔是正确的,但p值却不正确。

2
偏向引导程序:是否可以将CI置于观察到的统计数据的中心?
这类似于Bootstrap:估算值超出置信区间 我有一些数据可以代表人群中基因型的数量。我想使用Shannon指数来估算遗传多样性,并且还要使用自举法生成一个置信区间。但是,我已经注意到,通过自举进行的估算往往会产生极大的偏差,并导致置信区间超出我观察到的统计数据。 下面是一个例子。 # Shannon's index H <- function(x){ x <- x/sum(x) x <- -x * log(x, exp(1)) return(sum(x, na.rm = TRUE)) } # The version for bootstrapping H.boot <- function(x, i){ H(tabulate(x[i])) } 资料产生 set.seed(5000) X <- rmultinom(1, 100, prob = rep(1, 50))[, 1] 计算方式 H(X) ## [1] 3.67948 …

3
交叉验证分类准确性的置信区间
我正在研究一个分类问题,该问题计算两个输入X射线图像之间的相似性度量。如果图像属于同一个人(标签为“正确”),则将计算更高的度量;两个不同人的输入图像(标签为“错误”)将导致较低的指标。 我使用分层的10倍交叉验证来计算错误分类的概率。我当前的样本大小约为40个正确匹配和80个错误匹配,其中每个数据点都是计算得出的指标。我得到的误分类概率为0.00,但是我需要对此进行某种置信区间/错误分析。 我正在研究使用二项式比例置信区间(在此情况下,将交叉验证的结果用作成功次数的正确标记或错误标记)。但是,二项式分析背后的假设之一是每个试验的成功概率相同,并且我不确定交叉验证中“正确”或“错误”分类背后的方法是否可以认为具有成功几率相同。 我能想到的唯一其他分析是重复进行交叉验证X次并计算分类误差的均值/标准差,但是我不确定这是否合适,因为我会重复使用我的数据相对较小的样本数倍。 有什么想法吗?我正在使用MATLAB进行所有分析,并且确实有“统计”工具箱。非常感谢您的协助!

2
在什么设置下,随着样本数量的增加,置信区间不会变好吗?
在博客文章中,我发现有这样的说法: “我相信Cochrane工作组首先指出(大约在1970年代),在观察环境中具有置信区间时,小样本量会导致更好的覆盖率,而足够大的样本会提供接近零的覆盖率!” 现在,我假设CI宽度应随着样本大小的增加而接近0,但是覆盖范围会同时变差的想法对我来说并不令人信服。这个说法是正确的,在什么情况下?还是我看错了? 我已经使用随机正态分布数据进行了模拟,样本大小为10000至1000000(一次样本t检验,95%CI),每个样本大小运行1000次,对于更大样本量,覆盖率并没有恶化(相反,我发现了预期的接近5%的恒定错误率)。

3
两个参数乘积的置信区间
让我们假设我们有两个参数和。我们还具有两个最大似然估计量和以及这些参数的两个置信区间。有没有办法建立的置信区间?p1p1p_1p2p2p_2p1^p1^\hat{p_1}p2^p2^\hat{p_2}p1p2p1p2p_1p_2

1
使用ggplot或ellipse软件包绘制95%CI椭圆时获得不同的结果
我想protoclust{protoclust}通过为用于对我的数据进行分类的每对变量创建散点图,按类着色以及为每个类的95%置信区间重叠椭圆来可视化聚类的结果(用生成),以对每个类进行重叠(以检查椭圆类在每对变量下重叠)。 我已经以两种不同的方式实现了椭圆的绘制,并且生成的椭圆也不同!(第一个实现使用更大的椭圆!)先验的只是它们的大小不同(有些不同的缩放比例?),因为轴的中心和角度在两者上似乎是相似的。我想我一定是通过使用其中之一(不要同时使用两者!)或参数来做错事。 谁能告诉我我在做什么错? 这里是两个实现的代码;两者均基于“ 如何将数据椭圆叠加到ggplot2散点图上”的答案? ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal <- brewer.pal(10, "Paired") x <- data$x y <- data$y group <- data$group df <- data.frame(x=x, y=y, group=factor(group)) df_ell <- data.frame() for(g in levels(df$group)){df_ell <- rbind(df_ell, cbind(as.data.frame(with(df[df$group==g,], ellipse(cor(x, y),scale=c(sd(x),sd(y)),centre=c(mean(x),mean(y))))),group=g))} p1 <- ggplot(data=df, aes(x=x, y=y,colour=group)) + geom_point() …

5
置信区间和概率-此语句中的错误在哪里?
如果有人发表如下声明: “总体而言,与不接触烟的非吸烟者相比,接触环境烟的非吸烟者患冠心病的相对风险为1.25(95%置信区间为1.17至1.32)。” 整个人口的相对风险是多少?有多少东西与冠心病有关?在可以测试的大量事物中,实际上很少与冠心病有关,因此,任意选择的任何特定事物与之相连的机会都将大大减少。因此,我们可以说该人群的相对风险为1。但是所引用的间隔不包含值1。因此,或者两者之间确实存在联系,而这两者的可能性正在逐渐减小,或者这是其中之一。不包含参数的间隔的5%。由于后者比前者更有可能是我们应该假设的。因此,适当的结论是,该数据集几乎可以肯定是该人群的非典型数据, 当然,如果有某种依据可以假定超过5%的疾病与冠心病有关,那么统计中可能会有一些证据支持环境烟雾就是其中之一的说法。常识表明这不太可能。 他们的推理有什么错误(因为所有卫生组织都同意,有大量有关二手烟破坏作用的文献)?是因为他们的前提是“在可以测试的大量事物中,实际上很少与冠心病有关”?这句话对于任何随机选择的因素(例如,一个人拥有几只患有冠状动脉疾病的狗)可能都是正确的,但二手烟和冠心病的先验概率要比“任何随机因素”高得多。 这是正确的推理吗?还是还有别的东西?


1
为什么从混合效应模型中自举残差会产生反保守的置信区间?
我通常处理的数据是,在2个或更多条件下,分别测量了多个个体。我最近一直在使用混合效果建模来评估条件之间差异的证据,individual并将其建模为随机效果。为了可视化此类建模预测的不确定性,我一直在使用自举法,其中在引导程序的每次迭代中,对个体和条件内观察进行替换抽样,并从中计算新的混合效应模型获得。这对于假定高斯误差的数据效果很好,但是当数据为二项式时,自举可能会花费很长时间,因为每次迭代都必须计算一个计算量相对较高的二项式混合效应模型。 我当时的想法是,我可以使用原始模型中的残差然后使用这些残差代替引导程序中的原始数据,这将使我能够在引导程序的每次迭代中计算一个高斯混合效果模型。将原始数据的二项式模型的原始预测与残差的自举预测相加,得出原始预测的CI为95%。 不过,我最近编码这种做法的一个简单的评价,造型两种情况之间没有区别的,计算的时间比例为95%置信区间未能包括零,而且我发现,上述基于残差,引导过程的产量相当强烈反保守的时间间隔(超过5%的时间排除零)。此外,我然后编码(与以前的链接相同)对该方法的类似评估,该评估应用于原始高斯数据,并且获得了相似的(尽管不是极端的)反保守CI。知道为什么会这样吗?

1
基本自举置信区间的覆盖概率
我正在研究的课程存在以下问题: 进行蒙特卡洛研究,以估计标准正常自举置信区间和基本自举置信区间的覆盖概率。从正常人群中抽样,并检查样本均值的经验覆盖率。 标准普通引导程序CI的覆盖率很容易: n = 1000; alpha = c(0.025, 0.975); x = rnorm(n, 0, 1); mu = mean(x); sqrt.n = sqrt(n); LNorm = numeric(B); UNorm = numeric(B); for(j in 1:B) { smpl = x[sample(1:n, size = n, replace = TRUE)]; xbar = mean(smpl); s = sd(smpl); LNorm[j] = xbar + …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.