Questions tagged «bootstrap»

引导程序是一种重采样方法,用于估计统计信息的采样分布。

1
引导程序:估计值超出置信区间
我使用混合模型(带有交互作用的多个变量和一个随机变量)进行了引导。我得到了这个结果(只是部分): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... 现在,我想获取截距的置信区间: > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on …

2
我应该在集群级别还是在个人级别进行引导?
我有一个将患者嵌套在医院中的生存模型,其中包括医院的随机效应。随机效应是伽马分布的,我试图以易于理解的规模报告该术语的“相关性”。 我发现以下使用中位数危险比(有点像中位数赔率)的参考文献进行了计算。 Bengtsson T,Dribe M:历史方法43:15,2010年 但是,现在我想使用自举报告该估计的不确定性。数据是生存数据,因此每个患者有多个观察结果,每个医院有多个患者。似乎很明显,我需要在重新采样时对患者的观察结果进行聚类。但是我不知道我是否也应该对医院进行聚类(即对医院重新采样,而不是对患者进行抽样? 我想知道答案是否取决于感兴趣的参数,如果目标是与患者有关而不是与医院有关的东西,那会有所不同吗? 如果有帮助,我在下面列出了Stata代码。 cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

2
我可以使用引导程序,为什么或为什么不呢?
我目前正在使用卫星图像进行生物量估算。我将快速定义问题的背景,然后解释我正在处理的统计问题。 背景 问题 我正在尝试估算法国某个地区的生物量。我的回答是the木体积密度(),它或多或少与生物量成正比(取决于木材密度...)。m3/ham3/ham^3/ha 我拥有的独立变量是从该地区测得的反射率得出的植被指数(本研究中使用的卫星对于那些了解卫星的人是MODIS)。这些索引例如是NDVI,EVI等。我有这些索引的地图,这些地图的分辨率为250m。 这些指数与同一森林类型(生物群落和气候)的体积之间有很强的相关性。因此,我尝试根据我知道体积的库存图上的这些指标(实际上是它们的时间序列)对体积密度进行回归。 森林清单 这些地块的体积通过以下抽样方法估算: 库存节点放置在覆盖该区域的常规网格上。 在每个节点上都有一个图,并且在该图上进行了清单处理(树类型,体积,树冠高度等)。当然,我只对库存图感兴趣,而我的植被指数的值就是包含该图的像素的值。 图中的库存过程如下: 在15m半径的圆中测量直径> 37.5cm的树木 在9m半径的圆中测量直径大于22.5cm的树木 在6m半径的圆中测量直径大于7.5cm的树木 然后使用膨胀系数计算体积密度。 对于每个图,我都可以访问所有测量树的数据。 而且,对于每棵单棵树,由于使用了异速方程,我对体积不确定(让我们说10%)。 统计数据很重要的地方... 为了使回归更加准确,我需要针对每个体积估计值使用该度量的方差/ CI。IMO,这取决于采样的树木数量和找到的体积密度。 所以我有两个问题: 如何解释我的植被指数在250m像素上测量的事实? 我可以假设体积密度在一个像素上是恒定的,并且可以通过一个库存图对该像素进行采样。 如何估算我的体积密度的变化性? 我想我可以在树上使用引导程序。但是我测量的树木总数可能很小(从7到20 ...)。此外,我如何考虑到我根据树木的大小在不同圆圈上测量树木的事实?如果查看整个像素,变异性应如何变化? 我还以为我可以使用蒙特卡洛模拟来模拟一个森林,然后用图解法对该森林进行随机采样,以查看发生了什么... 我没有很强的统计背景,所以我有点迷路!
10 bootstrap 

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
重采样的好文字?
小组可以为应用的重采样技术推荐一个好的介绍文字/资源吗?具体而言,我对经典参数测试(例如t检验,ANOVA,ANCOVA)的替代方案感兴趣,这些替代方案用于在明显违反正态性等假设的情况下进行群体比较。 我想教育自己解决问题的一种示例类型可能涉及以下内容: I) 2组:治疗和控制 因变量:干预后帐户余额的变化 协变量:干预前帐户余额美元。 应用ANCOVA的问题:许多主题不会有任何变化(很多零)。 II) 2组:治疗和控制 从属变量:添加了新帐户 协变量:干预前帐户数。 *许多科目将没有任何添加的帐户(许多零)。 我可以使用引导程序吗?排列测试?这是我要应用非参数重采样方法的分析类型。

2
从分层数据中获取并解释自举的置信区间
我对获得数量X的自举置信区间很感兴趣,因为该数量在10个人中各有10次测量。 一种方法是获取每个人的均值,然后重新引导均值(例如,用替换对均值进行重新采样)。 另一种方法是在自举过程的每次迭代中执行以下操作:在每个个体内,用替换对那个个体的10个观察值重新采样,然后为那个个体计算一个新的均值,最后计算一个新的组均值。在这种方法中,原始数据集中观察到的每个个体在引导程序的每次迭代中总是对组均值有所贡献。 最后,第三种方法是将上述两种方法结合起来:对个体进行重新采样,然后在这些个体内进行重新采样。此方法与先前的方法不同之处在于,它允许同一个人在每次迭代中对组均值贡献乘数,尽管由于每个贡献都是通过独立的重采样过程生成的,所以这些贡献可能会彼此略有不同。 在实践中,我发现这些方法对置信区间的估计不同(例如,使用一个数据集,我发现第三种方法的置信区间要比前两种方法大得多),所以我很好奇每种方法可能是什么解释代表。

3
如何从Bootstrap回归中获得系数的p值?
从罗伯特·卡巴科夫(Robert Kabacoff)的Quick-R中,我有 # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) # view …

3
引导残差:我做对了吗?
首先:据 我了解,引导残差的工作方式如下: 使模型适合数据 计算残差 重新采样残差并将其添加到1。 使模型适合3中的新数据集。 重复n次数,但始终将重新采样的残差添加到从1开始的拟合中。 到目前为止,对吗? 我想做的是稍微不同的事情: 我想为估计一些环境变量的算法估计参数和预测不确定性。 我所拥有的是该变量的无错误时间序列(来自模拟)x_true,在其中添加了一些噪声,x_noise以生成综合数据集x。然后,我尝试通过将平方和sum((x_estimate - x_true)^2)(!not x_estimate - x!)作为目标函数拟合我的算法来找到最佳参数。为了查看我的算法如何执行并创建参数分布的样本,我想重新采样x_noise,将其添加到x_true,再次拟合我的模型,冲洗并重复。这是评估参数不确定性的有效方法吗?我可以将自举数据集的拟合解释为预测不确定性,还是必须遵循上面发布的过程? / edit:我认为我还没有真正弄清楚模型的作用。可以认为它本质上类似于降噪方法。它不是预测模型,而是一种试图提取嘈杂的环境数据时间序列的基础信号的算法。 / edit ^ 2:对于在那里的MATLAB用户,我写下了一些我所要表达的快速且肮脏的线性回归示例。 我认为这是残差的“常规”自举(如果我错了,请纠正我):http : //pastebin.com/C0CJp3d1 这就是我想做的:http : //pastebin.com/mbapsz4c

1
我应该选择哪种自举回归模型?
我有一个具有DV(疾病:是/否)和5个预测变量(人口统计学[年龄,性别,吸烟(是/否)),医学指标(常规)和一种随机治疗方法(是/否)的二元logistic回归模型])。我还为所有双向交互条件建模。主要变量居中,没有多重共线性的迹象(所有VIF <2.5)。 我有一些疑问: 引导程序是否比我的单一模型有利?如果是这样的话, 我应该选择哪种引导模式?我只是想看看引导算法是否遵循随机方法来创建新样本,或者它们是否具有严格的算法。因此,我每次尝试都重新采样了1000次(所以我有几个自举模型,每个模型都有1000次试验)。但是,每次引导模型的系数都不同(尽管试验次数始终为1000)。所以我想知道应该为我的报告选择哪一个?有些变化很小,并且不会影响我的系数的显着性,但是有些变化会使我的某些系数不显着(例如,只有那些在原始模型中P值接近0.05且变为0.06的系数)。 我应该选择更高的数字,例如10,000吗?如何确定此限制? 我还是应该首先重新引导吗?如果每次的结果都不同,我可以依靠它的结果吗? 您还有其他想法可以帮助我解决我的问题吗? 非常感谢。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
引导程序样本与原始样本完全相同的机会
只想检查一些推理。 如果我的原始样本大小为并且我对其进行引导,那么我的思考过程如下:nnn 1n1n\frac{1}{n}是从原始样本中提取任何观察值的机会。为了确保下一次绘制不是先前采样的观测值,我们将样本大小限制为。因此,我们得到以下模式:n − 1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1个ñ⋅1个ñ-1个⋅1个ñ-2⋯1个ñ-(ñ-1个)=1个ñ!。 \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. 它是否正确?我偶然发现了为什么不能。(1n)n(1个ñ)ñ(\frac{1}{n})^n

2
引导程序样本的大小
我正在学习将引导程序作为估计样本统计量方差的一种方法。我有一个基本的疑问。 引用自http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf: •我们应该重新采样多少个观测值?一个很好的建议是原始样本大小。 我们如何重新采样与原始采样中一样多的观测值? 如果我的样本量为100,并且正在尝试估算均值的方差。如何从总样本量为100的样本中获取多个大小为100的引导样本?在这种情况下,只能有1个引导程序样本,这与原始样本等效吗? 我显然误会了一些非常基本的东西。据我所知,数的理想 bootstrap样本总是无限的,并确定必要的引导样品我的数据我不得不进行收敛检验的数量保持我的精度要求的初衷。 但我真搞不清楚什么应该是每一个的大小个体引导样品。

2
如何在线性回归中计算x截距的置信区间?
由于通常对响应变量给出线性回归的标准误差,因此我想知道如何在另一个方向上获取置信区间,例如对于x截距。我可以看到它可能是什么,但是我敢肯定必须有一种简单的方法来做到这一点。下面是R中如何形象化显示的示例: set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, pch=4) newdat <- data.frame(x=seq(-2,12,len=1000)) # CI pred <- …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.