Questions tagged «bootstrap»

引导程序是一种重采样方法,用于估计统计信息的采样分布。

11
向外行人解释引导程序为何起作用
我最近使用引导程序来估计项目的置信区间。人谁不知道很多有关统计最近问我解释为什么引导工作,即,那为什么在重新取样相同的样本,并在提供了良好的效果。我意识到,尽管我花了很多时间来了解如何使用它,但我并不真正理解引导程序为何起作用。 具体来说:如果我们从样本中进行重采样,那我们是如何在了解有关总体而不是仅关于样本的信息?似乎有一个飞跃,这有点违反直觉。 在这里,我已经找到了一些答案,而我对此有一半的了解。特别是这个。我是统计学的“消费者”,而不是统计学家,并且我与对统计学了解不多的人一起工作。因此,有人可以在最少参考定理等情况的情况下解释引导程序的基本原理吗?也就是说,如果您不得不向邻居解释,您会说什么?

4
自举中的.632+规则是什么?
在这里, @ gung引用了.632+规则。快速的Google搜索无法就此规则的含义以及它的用途产生简单易懂的答案。有人可以阐明.632+规则吗?
107 bootstrap 


3
“天真启动”失败的例子有哪些?
假设我有一组来自未知或复杂分布的样本数据,并且我想对数据的统计量进行一些推断。我的默认倾向是只生成一堆带有替换的引导程序样本,并在每个引导程序样本上计算我的统计量,以为创建一个估计分布。TTTTTTTTT 有哪些不好的主意示例? 例如,如果天真的执行此引导程序将失败,则是一种情况,如果我尝试对时间序列数据使用引导程序(例如,测试我是否具有显着的自相关)。我认为上述天真的引导程序(通过对原始序列进行替换并进行采样来生成第n个引导程序样本系列的第个数据点)是不明智的,因为它忽略了我的原始时间序列中的结构,因此我们获得更先进的引导程序技术,例如块引导程序。iii 换句话说,除了“替换抽样”之外,引导程序还有什么?

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
重采样/模拟方法:蒙特卡洛,自举,千斤顶,交叉验证,随机化测试和置换测试
我试图理解不同重采样方法(蒙特卡罗模拟,参数自举,非参数自举,顶峰,交叉验证,随机化测试和置换测试)之间的区别,以及它们在我自己的环境中使用R的实现。 假设我遇到以下情况–我想对Y变量(Yvar)和X变量(Xvar)执行ANOVA 。Xvar是绝对的。我对以下事情感兴趣: (1)p值的意义–错误发现率 (2)效果Xvar等级 大小 Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) 您能帮我用明确的工作示例解释采样差异吗,这些重采样方法是如何工作的? 编辑: 这是我的尝试: Bootstrap 10个Bootstrap样本,样本数量已替换,意味着可以重复样本 boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] …

4
可以将引导程序视为小样本量的“治愈方法”吗?
这个问题是由我在这本研究生水平的统计课本中读到的东西触发的,并且在统计研讨会上的这次演讲中也(独立地)听到了。在这两种情况下,该语句都遵循“由于样本量很小,我们决定通过自举而不是(或与之一起)使用此参数方法进行估计”。XXX 他们没有进入细节,但可能的理由如下:方法假定数据按照一定的参数分布。实际上,分布不完全是,但是只要样本大小足够大就可以。由于在这种情况下样本量太小,让我们切换到不做任何分布假设的(非参数)引导程序。问题解决了!XXXDDDDDD 在我看来,这不是引导程序的用途。我是这样看的:当或多或少明显有足够的数据时,bootstrap可以给自己一个优势,但是没有封闭形式的解决方案可以获取标准误差,p值和类似的统计信息。一个经典的例子是从双变量正态分布中给定样本来获得相关系数的CI:存在闭式解,但是它是如此复杂,以至于自举更简单。但是,这并不意味着引导程序可以以某种方式帮助人们摆脱小样本的困扰。 我的看法正确吗? 如果您觉得这个问题很有趣,那么我还有另一个更具体的引导问题: 引导程序:过度拟合的问题 PS:我不禁分享一个“引导方法”的令人震惊的例子。我没有透露作者的名字,但他是老一辈的“ Quants”之一,他于2004年写了一本关于量化金融的书。 考虑以下问题:假设您有4个资产,每个资产有120个每月回报观察。目标是构建年度收益的联合4维cdf。即使对于单个资产,仅通过10年的观测也很难实现该任务,更不用说对4维cdf的估计了。但请放心,“引导程序”将为您提供帮助:获取所有可用的4维观测值,用替换对12个样本进行重新采样,然后将它们组合起来,以构建单个“引导”的4维年度回报矢量。重复执行1000次,然后发现,您获得了1000个年度回报的“引导样本”。将其用作大小为1000的iid样本,以进行cdf估计或从一千年的历史中得出的任何其他推论。

4
关于不确定性的自举估计的假设
我赞赏引导程序在获得不确定性估计中的有用性,但一直困扰着我的一件事是,与那些估计相对应的分布是样本定义的分布。通常,认为我们的采样频率看起来与基础分布完全相似似乎是一个坏主意,那么,为什么基于采样频率定义基础分布的分布来导出不确定性估计是合理的/可以接受的呢? 另一方面,这可能并不比我们通常所做的其他分布假设差(可能更好),但我仍然想更好地理解其理由。

1
Bootstrap与Jackknife
引导法和折刀法都可以用来估计估计值的偏差和标准误差,并且两种重采样方法的机制也没有很大的不同:一次替换采样与一次不进行观察。但是,折刀在研究和实践中不像自举法那样受欢迎。 使用引导程序而不使用折刀刀有明显的优势吗?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
是否可以从贝叶斯的角度解释引导程序?
好的,这是一个让我彻夜难眠的问题。 引导程序是否可以解释为近似某些贝叶斯程序(贝叶斯引导程序除外)? 我真的很喜欢贝叶斯统计的“解释”,我发现它很好地连贯并且易于理解。但是,我的引导程序过程也有一个缺点,它很简单,但是在许多情况下却提供了合理的推断。但是,如果我知道引导程序在某种意义上近似于后验分布,我将对引导更加满意。 我知道“贝叶斯引导程序”(Rubin,1981年),但是从我的角度来看,引导程序的版本与标准引导程序一样有问题。问题是在进行经典和贝叶斯自举时,您所做的模型假设非常特殊,也就是说,分布的可能值只是我已经看到的值。这些奇怪的模型假设如何仍能产生引导程序产生的非常合理的推论?我一直在寻找研究引导程序属性的文章(例如Weng,1989年),但没有找到任何令我满意的明确解释。 参考文献 唐纳德·鲁宾(1981)。贝叶斯引导程序。 安 统计员。第9卷第1期,第130-134页。 翁中星(1989)。贝叶斯Bootstrap均值的二阶渐近性质。 统计年鉴,卷。第17卷,第2期,第705-710页。

5
为什么平均每个引导样本大约包含三分之二的观测值?
我碰到过这样的断言:每个引导程序样本(或袋装树)平均将包含大约的观测值。2/32/32/3 我了解到,在有替换替换的样本中的抽签中,没有被选中的几率是,这大约有未被选中的几率。Ñ (1 - 1 / Ñ )ñ 1 / 3nnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 为什么此公式始终给出的数学解释是什么?≈1/3≈1/3\approx 1/3
42 bootstrap 

1
如何使用自举法或蒙特卡洛方法确定重要的主要成分?
我对确定从主成分分析(PCA)或经验正交函数(EOF)分析得出的有效模式的数量感兴趣。我对将这种方法应用于气候数据特别感兴趣。数据字段是一个MxN矩阵,其中M是时间维度(例如天),N是空间维度(例如lon / lat位置)。我已经读过一种可能的引导方法来确定重要的PC,但是无法找到更详细的描述。到目前为止,我一直在使用North的经验法则(North 等人,1982)来确定该临界值,但是我想知道是否有更健壮的方法可用。 举个例子: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal …
40 r  pca  bootstrap  monte-carlo 


3
从引导式重采样中获得的置信区间是什么意思?
我一直在这个站点上查看有关自举和置信区间的许多问题,但我仍然感到困惑。我感到困惑的部分原因可能是我的统计学知识不够先进,无法理解很多答案。我正在学习统计学入门课程,但是我的数学水平仅是中代数II,因此超出该水平的任何内容都会使我感到困惑。如果该站点上的一位知识渊博的人可以在我一级上解释此问题,那将非常有帮助。 我们在课堂上学习如何使用bootstrap方法进行重采样,并使用它们为我们要测量的某些统计数据建立置信区间。因此,举例来说,假设我们从大量人口中抽样,发现40%的人表示将投票给候选人A。我们假设此样本是对原始人口的准确反映,在这种情况下,我们可以从发现有关人口的信息。因此,我们进行了重新抽样,发现(使用95%的置信度)所得的置信区间为35%至45%。 我的问题是,这个置信区间实际上是什么意思? 我一直在读,(频率)置信区间和(贝叶斯)可信区间是有区别的。如果我理解正确,可信区间将表示在我们的情况下,真实参数有95%的机会在给定区间内(35%-45%),而置信区间将表示在此区间中有95%情况类型(但不一定是我们的情况),我们使用的方法将准确地报告true参数在给定间隔内。 假设这个定义是正确的,我的问题是:使用引导程序方法建立的置信区间时,我们所说的“真实参数”是什么?我们是指(a)原始种群的真实参数,还是(b)样本的真实参数?如果是(a),那么我们可以说95%的时间引导方法将准确报告有关原始人口的真实陈述。但是我们怎么可能知道呢?整个引导程序方法不是基于这样的假设吗原始样本是否准确反映了其来源?如果是(b),那么我完全不了解置信区间的含义。我们是否不知道样本的真实参数?这是一个简单的测量! 我与老师讨论了这个问题,她很有帮助。但是我还是很困惑。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.