Questions tagged «bootstrap»

引导程序是一种重采样方法,用于估计统计信息的采样分布。

2
如何构建中位数之间差异的95%置信区间?
我的问题是:平行组随机试验的主要结局分布偏右。我不想假设正常,而是使用基于法线的95%CI(即使用1.96 X SE)。 我很乐意将集中趋势的度量表示为中位数,但是我的问题是,如何构建两组之间中位数差异的95%CI。 首先想到的是引导程序(用替换进行重采样,确定两组的中位数,并从另一组中减去一个,重复1000次,并使用偏差校正的95%CI)。这是正确的方法吗?还有其他建议吗?

4
为什么RANSAC没有最广泛地用于统计?
来自计算机视觉领域,我经常使用RANSAC(随机样本共识)方法将模型拟合到具有许多异常值的数据。 但是,我从未见过统计学家使用过这种方法,而且一直给人一种不被认为是“统计上合理”的方法的印象。为什么?它本质上是随机的,这使得分析起来更加困难,但是引导方法也是如此。 还是仅仅是一个学术孤岛不互相交谈的情况?

1
是否有一个结果,当且仅当统计数据是平滑的时,提供引导程序才有效?
在整个过程中,我们假设统计量是某些数据的函数是从分布函数得出的;我们样本的经验分布函数是。因此,是被视为随机变量的统计量,而是该统计量的引导版本。我们使用作为KS距离θ (⋅ )θ(⋅)\theta(\cdot) ˚F ˚F θ (˚F )θ (X1个,… XñX1,…XñX_1, \ldots X_nFFFF^F^\hat{F}θ (˚F)θ(F)\theta(F)d∞θ (˚F^)θ(F^)\theta(\hat{F})d∞d∞d_\infty 如果统计信息是简单的线性统计信息,则对于引导程序的有效性有“ if and only if”结果。例如Mammen的定理1“引导程序何时起作用?” 如果用于某些任意函数则引导程序的作用是如果且仅当存在和使得 我们可以在其中将定义为样本的某些函数,并且ħñd∞[大号(θ( ˚F) -吨 Ñ),大号(θ(˚F)-吨Ñ)]→p0σÑ吨Ñd∞[L(θ(F)−tn)θ (˚F)= 1ñ∑ñi − 1Hñ( X一世)θ(F)=1个ñ∑一世-1个ñHñ(X一世)\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)HñHñh_nd∞[ L(θ (F^)− t^ñ),大号(θ (F)− tñ)] →p0d∞[大号(θ(F^)-Ť^ñ),大号(θ(F)-Ťñ)]→p0d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0σñσñ\sigma_nŤñŤñt_n ^ 吨Ñ吨Ñ = È(吨 Ñ)d∞[ L(θ (F)− tñ),Ñ(0 …

1
多项式(1 / n,…,1 / n)可以表征为离散Dirichlet(1,..,1)吗?
所以这个问题有点混乱,但是我将提供彩色图表来弥补这一点!首先是背景,然后是问题。 背景 假设您有维多项式分布,并且在类别上的Probailites相等。令是该分布的归一化计数(),即:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 现在上的分布已支持n -simplex,但具有离散步骤。例如,对于n = 3,此分布具有以下支持(红点):ππ\pinnnn=3n=3n = 3 具有类似支持的另一个分布是维分布,即单位单纯形上的均匀分布。例如,这是一个3维 1,1,1)的随机抽奖:狄利克雷(1 ,... ,1 )狄利克雷(1 ,1 ,1 )nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) 现在我有了一个想法,即分布中的分布可以被描述为来自离散化为的离散支持。我想到的离散化(似乎很好用)是将单纯形中的每个点取整并“舍入”到支持的最接近点。对于3维单纯形,您将获得以下分区,其中每个有色区域中的点应“舍入”到最接近的红点:ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n)Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piππ\pi 由于狄利克雷分布是均匀的,因此每个点的最终密度/概率与“四舍五入”到每个点的面积/体积成比例。对于二维和三维情况,这些概率为: (这些概率来自蒙特卡洛模拟) 这样看来,至少对于2维和3维,以这种特殊方式离散化所得到的概率分布与的概率分布相同。那就是分布的标准化结果。我也尝试过使用4维,并且似乎可以使用。Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n) …

3
交叉验证或自举以评估分类性能?
在特定数据集上评估分类器的性能并将其与其他分类器进行比较的最合适的抽样方法是什么?交叉验证似乎是标准做法,但是我已经读过诸如.632 bootstrap之类的方法是更好的选择。 作为后续措施:性能指标的选择是否会影响答案(如果我使用AUC而不是准确性)? 我的最终目标是能够自信地说一种机器学习方法优于特定的数据集。

2
R中的引导实际上如何工作?
我一直在研究R中的引导程序包,尽管我找到了很多有关如何使用它的入门知识,但我还没有找到任何能够准确描述“幕后”情况的信息。例如,在此示例中,指南显示了如何使用标准回归系数作为引导程序回归的起点,但没有说明引导程序实际上在做什么以得出引导程序回归系数。似乎正在发生某种迭代过程,但我似乎无法弄清楚到底发生了什么。

1
自举与贝叶斯自举在概念上?
我在理解贝叶斯自举过程是什么以及与常规自举有何不同时遇到了麻烦。而且,如果有人可以提供直观/概念性的评论并进行比较,那将很棒。 让我们举个例子。 假设我们有一个[1,2,5,7,3]的数据集X。 如果我们多次采样替换来创建等于X大小的样本(所以[7,7,2,5,7],[3,5,2,2,7]等),那么我们计算每个的均值,是样本均值的自举分布吗? 贝叶斯引导分布是什么? 以及如何以相同方式完成其他参数(方差等)的贝叶斯自举分布?

1
使用Bootstrap估计回归系数置信区间的两种方法
我正在对数据应用线性模型: ÿ一世= β0+ β1个X一世+ ϵ一世,ϵ一世〜ñ(0 ,σ2)。ÿ一世=β0+β1个X一世+ϵ一世,ϵ一世〜ñ(0,σ2)。 y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). 我想使用自举方法来估计系数(,)的置信区间(CI)。我可以通过两种方式应用bootstrap方法: β 1β0β0\beta_{0}β1个β1个\beta_{1} 配对响应预测器样本:对对进行随机重采样,并将线性回归应用于每次运行。后跑,我们得到的估计系数的集合。最后,计算的分位数。中号^ β Ĵ,Ĵ = 1 ,。。。米^ β Ĵÿ一世− x一世ÿ一世-X一世y_{i}-x_{i}米米mβĴ^,Ĵ = 1 ,。。。米βĴ^,Ĵ=1个,。。。米{\hat{\beta_{j}}}, j=1,...mβĴ^βĴ^{\hat{\beta_{j}}} 样本误差:首先对原始观测数据应用线性回归,从该模型中我们获得和误差。然后,对误差随机重采样,并使用和 。再次应用线性回归。后跑,我们得到估计coefficeints集合。最后,计算的分位数。βØ^βØ^\hat{\beta_{o}}ϵ一世ϵ一世\epsilon_{i}ϵ∗一世ϵ一世∗\epsilon^{*}_{i}βØ^βØ^\hat{\beta_{o}}ÿ∗一世= βØ^X一世+ ϵ∗一世ÿ一世∗=βØ^X一世+ϵ一世∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}米米mβĴ^,Ĵ = 1 ,。。。,米βĴ^,Ĵ=1个,。。。,米{\hat{\beta_{j}}}, j=1,...,mβĴ^βĴ^{\hat{\beta_{j}}} 我的问题是: 这两种方法有何不同? 在哪种假设下这两种方法给出的结果相同?

2
引导程序-我需要先删除异常值吗?
我们已经对新产品功能进行了拆分测试,并希望衡量收入的增长是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户都没有消费,而在那些使用者中,它严重偏向许多小额支出者和一些非常大的支出者)。 我们已决定使用引导程序来比较均值,以解决数据没有正态分布的问题(附带的问题:这是引导程序的合法使用吗?) 我的问题是,在运行引导程序之前,是否需要从数据集中修剪异常值(例如,少数几个花费大的对象),还是没关系?

1
引导程序分布的标准误差的使用
(如果需要,请忽略R代码,因为我的主要问题是与语言无关) 如果我想看一个简单统计量的可变性(例如:均值),我知道我可以通过以下理论来做到这一点: x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) 或使用类似的引导程序: library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... sd(x.bs$t) 但是,我想知道的是,在某些情况下查看引导程序分布的标准错误是否有用/有效?我正在处理的情况是一个相对嘈杂的非线性函数,例如: # Simulate dataset set.seed(12345) …


1
使用H0下的引导程序来测试两种方法之间的差异:在组内还是在合并样本中进行替换
假设我有一个包含两个独立组的数据: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

2
自举样本的均值与样本的统计量
假设我有一个样本和该样本的自举样本,用于统计(例如均值)。众所周知,该引导样本估算了统计量估计量的抽样分布。χχ\chi 现在,此引导样本的平均值是否比原始样本的统计更好地估计了人口统计?在什么情况下会是这种情况?

1
基于自举的置信区间
在研究基于引导的置信区间时,我曾经阅读以下语句: 如果引导程序分布向右偏斜,则基于引导程序的置信区间会进行校正,以将端点进一步移至右侧;这似乎违反直觉,但这是正确的操作。 我正在尝试理解上述陈述的逻辑基础。

3
为什么我们需要引导程序?
我目前正在阅读拉里·瓦瑟曼(Larry Wasserman)的“所有统计信息”,并对他在有关估计非参数模型的统计函数的章节中写的内容感到困惑。 他写了 “有时我们可以通过一些计算找到统计函数的估计标准误差。但是,在其他情况下,如何估计标准误差并不明显”。 我想指出的是,在下一章中,他将讨论引导程序以解决此问题,但是由于我不太了解该声明,因此我没有完全获得引导程序背后的动力吗? 当不清楚如何估计标准误差时,有什么例子呢? 所有迄今为止我见过的例子已经“明显”,如然后^ 小号È(p Ñ)= √X1个,。。。Xñ 乙ë - [R (p )X1,...Xn Ber(p)X_1,...X_n ~Ber(p)小号Ë^(p^ñ)= p^⋅ (1 − p^)/ n----------√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.