Questions tagged «confidence-interval»

置信区间是一个以置信度覆盖未知参数的区间。置信区间是一个经常性的概念。它们经常与可靠的时间间隔混淆,后者是贝叶斯模型。 (1α)%

4
机器学习算法的预测间隔
我想知道以下所述的过程是否有效/可以接受,并且有任何合理的理由。 想法:监督学习算法不假设数据的基础结构/分布。最终,他们输出点估计。我希望以某种方式量化估计的不确定性。现在,ML模型的建立过程本质上是随机的(例如,在用于超参数调整的交叉验证的采样中以及在随机GBM中的子采样中),因此建模管道将为每个具有不同种子的相同预测变量提供不同的输出。我的想法(天真)是一遍又一遍地运行此过程以得出预测的分布,我希望可以对预测的不确定性做出陈述。 如果重要的话,我使用的数据集通常很小(约200行)。 这有意义吗? 需要说明的是,我实际上并没有按照传统意义引导数据(即,我没有对数据进行重新采样)。每次迭代都使用相同的数据集,我只是利用xval和随机GBM中的随机性。

3
比例差异的置信区间
我想知道是否有人可以正确地计算出两个比例之间的差异的置信区间。 样本大小为34,其中女性为19,男性为15。因此,比例差异为0.1176471。 我计算出95%的置信区间为-0.1183872和0.3536814之间的差异。当置信区间经过零时,差异在统计上并不显着。 以下是我在R中所做的工作,并给出了注释结果: f <- 19/34 # 0.5588235 m <- 15/34 # 0.4411765 n <- 34 # 34 difference <- f-m # 0.1176471 lower <- difference-1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # -0.1183872 upper <- difference+1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # 0.3536814


1
单边置信区间能否覆盖95%
我想知道给定a (-尾)的alpha水平的假设.05,我们能否谈论95%的 置信区间? 例如,我们可以为单面Z或t检验分别构造“单面”和“两面”置信区间吗?给定单边检验,每个置信区间的“解释”是什么? 我对此有些困惑吗?

1
实践中仍在使用常客性条件推理吗?
我最近回顾了南希·里德,巴恩多夫-尼尔森,理查德·考克斯以及是的罗纳德·费舍尔的一些旧论文,这些论文涉及惯常主义范式中的“条件推论”概念,这似乎意味着推论仅基于考虑样本空间的“相关子集”,而不是整个样本空间。 作为一个关键的例子,如果您还考虑样本的变异系数(称为辅助统计量),则可以改善基于t统计量的置信区间(Goutis&Casella,1992)。 作为经常使用基于似然性推断的人,我假设当我形成一个渐近%置信区间时,我正在执行(近似)条件推断,因为似然性取决于观察样本。αα\alpha 我的问题是,除了条件逻辑回归之外,我还没有看到在推断之前对辅助统计条件进行调整的想法的使用。这种类型的推理是仅限于指数族,还是现在使用其他名称,所以它似乎仅是有限的。 我发现最近的一篇文章(Spanos,2011年)似乎对有条件推论(即无礼)所采用的方法产生了严重怀疑。取而代之的是,它提出了一个非常明智且数学上不那么费解的建议,即可以通过删节通常的无条件采样分布来解决“不规则”情况下的参数推断(其中分布的支持由参数确定)。 弗雷泽(Fraser(2004))很好地证明了条件性,但我仍然感到,要对复杂的情况实际应用条件推理,不仅需要运气和独创性,而且肯定比调用卡方更为复杂。 “近似”条件推断的似然比统计量的近似。 威尔士(2011,第163页)可能已经回答了我的问题(3.9.5,3.9.6)。 他们指出了巴苏的著名结果(巴苏定理),其中可能有不止一个辅助统计量,这是关于哪个“相关子集” 最相关的问题。更糟糕的是,它们显示了两个示例,这些示例说明即使您具有唯一的辅助统计信息,也无法消除其他相关子集的存在。 他们继续得出结论,只有贝叶斯方法(或与之等效的方法)才能避免此问题,从而实现无条件的条件推断。 参考文献: ttt Spanos,阿里斯。“重新审视韦尔奇统一模型:有条件推论的情况吗?”。 统计科学进展与应用 5(2011):33-52。 DAS弗雷泽(Fraser),“辅助条件和条件推断”。 统计科学 19.2(2004):333-369。 威尔士,艾伦·H 。统计推论。卷 916.约翰·威利父子,2011年。

2
从频繁结果中得出贝叶斯先验
如何将频繁出现的结果转换为贝叶斯先验结果? 考虑以下非常普通的场景:过去进行了一次实验,并测量了某些参数结果。该分析是采用常客方法进行的。结果中给出了置信区间。φϕϕ\phiϕϕ\phi 我现在正在进行一些新的实验,我想测量一些其他参数,例如和。我的实验与以前的研究不同---它不是使用相同的方法进行的。我想进行贝叶斯分析,因此需要将先验放在和。φ θ φθθ\thetaϕϕ\phiθθ\thetaϕϕ\phi 以前没有进行过测量,因此我在其上放了一个无信息的信息(例如其统一的信息)。 θθ\theta 如前所述,有一个先前的结果,以置信区间给出。要在我的当前分析中使用该结果,我需要将以前的常客性结果转换为内容丰富的先验信息以进行分析。 ϕϕ\phi 在这种组合方案中不可用的一个选项是重复先前的分析,以贝叶斯方式进行测量。 如果我可以做到这一点,那么将具有先前实验的后验,然后将其用作我的先验,那么就没有问题了。ϕϕ\phi ϕϕ\phi 我应该如何将常客身份CI转换为贝叶斯先验分布以进行分析?或者换句话说,我怎么可能对他们的翻译结果frequentest在成后,我会再在我的分析之前使用?φϕϕ\phiϕϕ\phi 欢迎讨论此类型问题的任何见解或参考。

2
曼惠特尼U检验:效应大小的置信区间
根据弗里茨,莫里斯和Richler(2011;见下文),可被计算为使用下式的曼-惠特尼U检验的效果大小 - [R = ž[Rrr 这是方便我,我报告[R在其他场合也。除了效果量度,我还要报告r的置信区间。[R = žñ--√r=zN r = \frac{z}{\sqrt N} [Rrr[Rrr 这是我的问题: 我可以像皮尔逊的r一样计算r的置信区间,尽管它被用作非参数检验的效应量度? 一尾测试与二尾测试必须报告什么置信区间? 编辑有关第二个问题的内容:“单尾测试与两尾测试必须报告什么置信区间?” 我发现了一些其他信息,恕我直言可能会回答这个问题。“虽然两边的置信限形成一个置信区间,但它们的单边对应物被称为上下置信界限。” (http://en.wikipedia.org/wiki/Confidence_interval)。从这些信息中,我得出结论,重要性检验(例如检验)是一尾还是二尾不是主要问题,而是关于效应大小的CI感兴趣的信息是什么。我的结论(如果您不同意,请纠正我):Ťtt 两侧CI 对上限和下限感兴趣(因此,尽管单尾显着性检验为p <.05,尤其是在值接近的情况下,两侧CI可能为0。 05.)→→\rightarrow 一侧的“ CI” 仅对上限或下限感兴趣(由于理论推理);然而,在检验了有针对性的假设之后,这并不一定是主要关注的问题。如果将焦点放在效果大小的可能范围上,则双面CI则非常合适。对?→→\rightarrow 弗里兹,莫里斯和里奇勒(Fritz,Morris,&Richler(2011))的文字段落见下文,内容涉及我在上文中提到的曼·惠特尼检验的效应大小估计。 “我们在此描述的大多数效应量估计值都假设数据具有正态分布。但是,某些数据不满足参数检验的要求,例如,按序数而不是区间标度的数据。对于此类数据,研究人员通常使用非参数统计检验,例如曼恩·惠特尼检验和Wilcoxon检验,这些检验的重要性通常通过在样本量不太小的情况下将检验统计量的分布近似于分布来评估,而统计学包,如SPSS,运行这些测试报告适当ž除了为值值û或Ť ; žžzzžzzüUUŤTTžzz也可以手工计算(例如,Siegel&Castellan,1988)。所述值可以用于计算作用大小,如ř由科恩(1988)提出; Cohen的r准则是:大影响为0.5,中影响为0.3,小影响为0.1(Coolican,2009,第395页)。这是很容易计算- [R ,- [R 2,或η 2从这些Ž值,因为 - [R = žžzz[Rrr[Rrr[R2r2r^2η2η2\eta^2žzz 和 r2r=zN−−√r=zN r = \frac{z}{\sqrt N} 尽管公式中存在N,但这些效应大小的估计仍独立于样本大小。这是因为z对样本大小敏感。除以N的函数会从结果效应量估计中消除样本量的影响。”(第12页)r2orη2=z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 …


1
似然比和贝叶斯模型比较是否可以为零假设检验提供更好且足够的替代方案?
为了回应越来越多的统计学家和研究人员批评将零假设检验(NHT)用于科学作为一种累积努力的做法,美国心理学会统计推断工作组避免了彻底禁止NHT的禁令,而是建议研究人员除了从NHT导出的p值外,还报告效果大小。 但是,效果大小在整个研究中不容易累积。元分析方法可以累积效应量的分布,但是效应量通常以原始效应量与给定实验数据中无法解释的“噪声”之比来计算,这意味着效应量的分布不仅受各个研究之间的原始效果差异很大,而且各个研究之间的噪音表现也存在差异。 相比之下,效应强度的替代度量,似然比既可以在逐项研究的基础上进行直观的解释,又可以轻松地在各个研究中汇总以进行荟萃分析。在每项研究中,似然度代表包含给定效果的模型相对于不包含效果的模型的证据权重,通常可以报告为例如“计算X效果的似然比”揭示了该效应的证据是其无效证据的8倍。” 此外,似然比还允许直观表示无效结果的强度,因为低于1的似然比表示赞成采用无效的情况,取该值的倒数表示无效对效果的证据权重。值得注意的是 似然比在数学上表示为两个模型的无法解释的方差之比,其差异仅在于效应所解释的方差,因此在概念上与效应大小没有太大的偏差。另一方面,荟萃分析似然比的计算代表了整个研究中某项效应的证据权重,这仅仅是取各个研究中似然比的乘积即可。 因此,我认为,对于寻求建立有利于效应/模型的总体证据程度的科学而言,似然比是可行的方法。 在更细微的情况下,模型仅在效果的特定大小上才是可区分的,在这种情况下,我们认为区间的某种表示形式(我们认为数据与效果参数值一致)可能是首选的。确实,APA工作组还建议报告置信区间,可以将其用于此目的,但是我怀疑这也是一种考虑不周的方法。 令人遗憾的是,置信区间经常被误解(被学生和研究人员都误解了)。我还担心它们在NHT中的使用能力(通过评估CI中是否包含零)将只会进一步推论NHT的灭绝。 相反,当理论只能通过效应的大小来区分时,我建议贝叶斯方法会更合适,因为每种效应的先验分布由每个模型分别定义,然后比较所得的后验分布。 这种方法用似然比替换p值,影响大小和置信区间,并且在必要时用贝叶斯模型比较是否似乎足够?是否错过了此处所针对的替代方案所提供的某些必要的推论功能?

3
在Box-Cox转换后的数据中以原始单位表示答案
对于某些测量,分析结果会以转换后的比例适当显示。但是,在大多数情况下,最好以原始的度量标准显示结果(否则您的工作或多或少就毫无价值)。 例如,在对数转换的数据的情况下,由于记录值的均值不是均值的对数,因此会出现原始标度解释的问题。在对数刻度上取均值估计值的对数,而在原始刻度上不给出均值估计值。 但是,如果日志转换后的数据具有对称分布,则以下关系成立(因为日志保留顺序): 均值[ log(是)] = 中位数[ log(是)] = 日志[ 中位数(Y)]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (对数值的对数是原始测量范围的中位数)。 因此,我只能对原始度量标准上的中位数差异(或比率)做出推断。 如果总体大致正常且具有大约标准偏差,则两样本t检验和置信区间最为可靠,因此我们可能会倾向于将Box-Cox变换用作正态假设成立(我也认为这也是方差稳定变换)。 但是,如果将t工具应用于Box-Cox转换后的数据,则会推断出转换后的数据在方式上的差异。我们如何以原始的测量尺度来解释那些?(转换后的值的平均值不是转换后的平均值)。换句话说,在转换后的尺度上对均值的估计值进行逆转换,不会在原始尺度上给出均值的估计值。 在这种情况下,我还可以仅推断中位数吗?有没有可以让我回到原始状态的方法的转换? 这个问题最初是在这里发表评论的

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
95%置信区间的公式
我在stats.stackexchange上进行了搜索和搜索,但是找不到用于为线性回归计算值的95%置信区间的公式。有人可以提供吗?R2R2R^2 更好的是,假设我在下面的R中运行了线性回归。如何使用R代码为R2R2R^2值计算95%的置信区间。 lm_mtcars <- lm(mpg ~ wt, mtcars)

8
如果p值正好为1(1.0000000),那么置信区间限制应为多少才能支持原假设为真?[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 7个月前关闭。 这纯粹是一个假设的问题。一个非常普遍的说法是永远都不是真的,这只是样本量的问题。H0H0H_0 让我们假设,对于实数,从正态分布的总体中得出的两个均值()绝对没有可测量的差异(对于和估计为)。我们假设每组,我们使用检验。这意味着值为表明与绝对没有差异。这将表明测试统计量为。组之间的平均差为。在这种情况下,均值差的置信区间的极限是多少?他们会吗μ1=μ2μ1=μ2\mu_1=\mu_2μ=0μ=0\mu=0σσ\sigma=1=1=1N=16N=16N=16tttppp1.000001.000001.00000H0H0H_000000095%95%95\%[0.0,0.0][0.0,0.0][0.0, 0.0]? 我的问题的重点是,我们什么时候可以真正说出是真实的,即在这种情况下?还是在常客制框架中比较两种方法时可以真正说“没有区别”?H0H0H_0μ1=μ2μ1=μ2\mu_1=\mu_2

4
如何计算比率的置信区间?
考虑一个输出在0到1之间的实验。在这种情况下,如何获得该比率应该无关紧要。在此问题的先前版本中对此进行了详细阐述,但为清晰起见,在关于meta的讨论之后被删除。XiXiX_i 此实验重复次,而n很小(大约3-10)。该X 我被认为是独立同分布的。从这些我们估计平均通过计算平均¯ X,但如何计算相应的置信区间[ ù ,V ]?nnnnnnXiXiX_iX¯¯¯¯X¯\overline X[U,V][U,V][U,V] 使用标准方法计算置信区间时,有时大于1。但是,我的直觉是正确的置信区间...VVV ...应在0到1的范围内 ...应随着n的增加而变小nnn ...大约是使用标准方法计算得出的顺序 ...通过数学上合理的方法计算 这些不是绝对要求,但我至少想了解为什么我的直觉是错误的。 根据现有答案进行计算 在下文中,从现有的答案所产生的置信区间为比较。{Xi}={0.985,0.986,0.935,0.890,0.999}{Xi}={0.985,0.986,0.935,0.890,0.999}\{X_i\} = \{0.985,0.986,0.935,0.890,0.999\} 标准方法(又名“学校数学”) ,σ2=0.0204,因此,99%的置信区间是[0.865,1.053]。这与直觉1相矛盾。X¯¯¯¯=0.959X¯=0.959\overline X = 0.959σ2=0.0204σ2=0.0204\sigma^2 = 0.0204[0.865,1.053][0.865,1.053][0.865,1.053] 裁剪(在评论中由@soakley建议) 只需使用标准方法,然后提供作为结果是很容易做到。但是我们可以这样做吗?我尚未确信下限保持不变(-> 4.)[0.865,1.000][0.865,1.000][0.865,1.000] 逻辑回归模型(@Rose Hartman建议) {4.18,4.25,2.09,2.66,6.90}{4.18,4.25,2.09,2.66,6.90}\{4.18,4.25,2.09,2.66,6.90\}[0.173,7.87][0.173,7.87][0.173,7.87][0.543,0.999][0.543,0.999][0.543,0.999] 二项式比例置信区间(由@Tim建议) 该方法看起来不错,但不幸的是它不适合实验。只需将结果组合起来,然后将其解释为@ZahavaKor建议的一项大型重复的Bernoulli实验,结果如下: 出来的 5 * 1000的总额。将其送入调整。沃尔德计算器给 [ 0.9511 ,0.9657 ]。这似乎是不现实的,因为在该间隔内没有单个 X i!(-> 3.)985+986+890+935+999=4795985+986+890+935+999=4795985+986+890+935+999 = 47955∗10005∗10005*1000[0.9511,0.9657][0.9511,0.9657][0.9511,0.9657]XiXiX_i 引导程序(由@soakley建议) 在我们有3125个可能的排列。取3093n=5n=5n=5的排列的中间手段,我们得到[0.91,0.99]。长得不说坏的,但我希望一个更大的区间( - > …

1
非线性混合模型(NLME)的预测置信区间
我想获得非线性混合nlme模型预测的95%置信区间。由于没有提供任何标准来执行此操作nlme,因此我想知道使用“人口预测间隔”方法是否正确(如Ben Bolker的书章所述,该模型基于最大似然的模型)根据拟合模型的方差-协方差矩阵对固定效应参数进行重采样,基于此模拟进行预测,然后取这些预测的95%百分数得到95%的置信区间? 执行此操作的代码如下:(我在这里使用nlme帮助文件中的“ Loblolly”数据) library(effects) library(nlme) library(MASS) fm1 <- nlme(height ~ SSasymp(age, Asym, R0, lrc), data = Loblolly, fixed = Asym + R0 + lrc ~ 1, random = Asym ~ 1, start = c(Asym = 103, R0 = -8.5, lrc = -3.3)) xvals=seq(min(Loblolly$age),max(Loblolly$age),length.out=100) nresamp=1000 pars.picked = mvrnorm(nresamp, mu = …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.