Questions tagged «resampling»

重采样是从样本中获取样本。常见的用途是千斤顶(获取子样本,例如除1以外的所有值)和引导(带有替换的采样)。当难以或不可能进行分析得出时,这些技术可以提供对采样分布的可靠估计。

3
如何在R中重新采样而不重复排列?
在R中,如果我先set.seed(),然后使用样本函数将列表随机化,是否可以保证不会生成相同的排列? 即... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } 这产生 [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

1
引导程序是否适合此连续数据?
我是一个完整的新手:) 我正在从大约745,000的人口中进行10,000个样本量的研究。每个样本代表一个“百分比相似度”。大部分样本在97%-98%左右,但少数样本在60%到90%之间,也就是说,分布严重负向倾斜。约0.6%的结果为0%,但这些将与样品分开处理。 所有10,000个样本的平均值为97.7%,仅在Excel中,StdDev为3.20。我知道StdDev在这里并不是真正适用的,因为结果不是正态分布的(因为+3.20会使您超过100%!)。 我的问题是: 自举(对我来说是个新概念)是否合适? 我是否正确引导:) 足够的样本量是多少? 我正在做的是对10,000个结果进行重新采样(并替换)并计算新的均值。我执行了数千次,并将每个均值存储在一个数组中。然后,我计算“均值”,这是我的统计结果。要计算出99%的置信区间,我选择了第0.5%的值和第99.5%的值,这产生了非常狭窄的范围:97.4%-98.0%。这是有效的结果,还是我做错了什么? 至于样本量,我仅抽样了约1.3%的人口-我不知道这是否足够。我如何知道我的样本是否代表人群?理想情况下,我希望对+/- 0.50%的平均值(即97.2%-98.2%)有99%的信心。 在此先感谢您提供任何提示!

1
引导方法。为什么用“替换”重新采样而不是随机子采样?
近年来,bootstrap方法得到了极大的推广,我也经常使用它,特别是因为背后的原因很直观。 但这是我不明白的一件事。为什么埃夫隆选择通过替换进行重采样,而不是通过随机包含或排除单个观测值来简单地进行二次采样? 我认为随机二次抽样具有非常好的质量,理想地代表了现实生活中的情况,在这种情况下,我们在研究中得到的观察值是假设总体的子集。我没有看到在重采样期间增加观察数的优势。在实际情况下,没有观察到与其他观察相似的情况,尤其是对于复杂的多元情况。

1
基尼系数和误差范围
我有一个时间序列的数据,每个时间点的N = 14个计数,我想在每个时间点计算此估计的基尼系数和标准误差。 由于我在每个时间点只有N = 14个计数,因此我通过计算折刀方差来进行计算,即从方程7汤臣Ogwang的标准误差”“计算基尼系数和它的一种方便的方法”。其中G ^(Ñ,ķ)是N个值的无元件的基尼系数ķ和 ˉ ģ(X)是平均的的G ^(Ñ,ķ)。变种(G )= n − 1ñ× ∑ñk = 1(G (n ,k )− G¯(n ))2变种⁡(G)=ñ-1个ñ×∑ķ=1个ñ(G(ñ,ķ)-G¯(ñ))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n ,k )G(ñ,ķ)G(n,k)ķķkG¯(x )G¯(X)\bar{G}(x)G (n ,k )G(ñ,ķ)G(n,k) 上面的方差公式的直接天真实现。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested by Tomson Ogwang …

4
为什么对重新采样的数据集进行假设检验经常会拒绝零值?
tl; dr:从空值下生成的数据集开始,我对样本进行了替换并重新采样,并对每个重新采样的数据集进行了假设检验。这些假设检验在超过5%的时间内拒绝了原假设。 在下面的非常简单的模拟中,我使用生成数据集,并为每个数据集拟合一个简单的OLS模型。然后,对于每个数据集,我通过替换替换原始数据集的行来生成1000个新数据集(该算法在Davison&Hinkley的经典文章中专门描述为适合线性回归的算法)。对于每一个,我都使用相同的OLS模型。最终,引导样本中大约16%的假设检验拒绝了null,而我们应该得到5%(就像在原始数据集中所做的那样)。X〜ñ(0 ,1 )⨿ ÿ〜ñ(0 ,1 )X〜ñ(0,1个)⨿ÿ〜ñ(0,1个)X \sim N(0,1) \amalg Y \sim N(0,1) 我怀疑这与重复观察导致虚假关联有关,因此为了进行比较,我尝试了以下代码中的两种其他方法(注释掉)。在方法2中,我修复,然后用原始数据集上OLS模型中的重采样残差替换在方法3中,我绘制了一个随机子样本而不进行替换。这两种选择均起作用,即它们的假设检验拒绝了5%的无效时间。ÿXXXÿÿY 我的问题:罪魁祸首是反复观察吗?如果是这样,考虑到这是引导程序的标准方法,那么我们到底在哪里违反标准引导程序理论? 更新#1:更多模拟 我尝试了一个更简单的方案,即的仅拦截回归模型。发生相同的问题。ÿÿY # note: simulation takes 5-10 min on my laptop; can reduce boot.reps # and n.sims.run if wanted # set the number of cores: can change this to match your machine library(doParallel) registerDoParallel(cores=8) …

2
我应该在集群级别还是在个人级别进行引导?
我有一个将患者嵌套在医院中的生存模型,其中包括医院的随机效应。随机效应是伽马分布的,我试图以易于理解的规模报告该术语的“相关性”。 我发现以下使用中位数危险比(有点像中位数赔率)的参考文献进行了计算。 Bengtsson T,Dribe M:历史方法43:15,2010年 但是,现在我想使用自举报告该估计的不确定性。数据是生存数据,因此每个患者有多个观察结果,每个医院有多个患者。似乎很明显,我需要在重新采样时对患者的观察结果进行聚类。但是我不知道我是否也应该对医院进行聚类(即对医院重新采样,而不是对患者进行抽样? 我想知道答案是否取决于感兴趣的参数,如果目标是与患者有关而不是与医院有关的东西,那会有所不同吗? 如果有帮助,我在下面列出了Stata代码。 cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

2
重采样的好文字?
小组可以为应用的重采样技术推荐一个好的介绍文字/资源吗?具体而言,我对经典参数测试(例如t检验,ANOVA,ANCOVA)的替代方案感兴趣,这些替代方案用于在明显违反正态性等假设的情况下进行群体比较。 我想教育自己解决问题的一种示例类型可能涉及以下内容: I) 2组:治疗和控制 因变量:干预后帐户余额的变化 协变量:干预前帐户余额美元。 应用ANCOVA的问题:许多主题不会有任何变化(很多零)。 II) 2组:治疗和控制 从属变量:添加了新帐户 协变量:干预前帐户数。 *许多科目将没有任何添加的帐户(许多零)。 我可以使用引导程序吗?排列测试?这是我要应用非参数重采样方法的分析类型。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
引导程序样本的大小
我正在学习将引导程序作为估计样本统计量方差的一种方法。我有一个基本的疑问。 引用自http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf: •我们应该重新采样多少个观测值?一个很好的建议是原始样本大小。 我们如何重新采样与原始采样中一样多的观测值? 如果我的样本量为100,并且正在尝试估算均值的方差。如何从总样本量为100的样本中获取多个大小为100的引导样本?在这种情况下,只能有1个引导程序样本,这与原始样本等效吗? 我显然误会了一些非常基本的东西。据我所知,数的理想 bootstrap样本总是无限的,并确定必要的引导样品我的数据我不得不进行收敛检验的数量保持我的精度要求的初衷。 但我真搞不清楚什么应该是每一个的大小个体引导样品。

1
使用分类变量进行过采样
我想执行过采样和欠采样的组合,以使我的数据集与大约4000个分为两组的客户保持平衡,其中一组的比例约为15%。 我研究了SMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)和ROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf),但是这两种方法都可以使用现有的观测数据(例如kNN)创建新的合成样本。 但是,由于与客户相关的许多属性都是分类的,因此我认为这不是正确的方法。例如,我的很多变量(例如Region_A和Region_B)都是互斥的,但是使用kNN可以将新的观测值放置在Region_A和Region_B中。您是否同意这是一个问题? 在那种情况下-如何通过简单地复制现有观测值来在R中执行过采样?还是这是错误的方法?

1
可以使用引导重采样来计算数据集方差的置信区间吗?
我知道,如果您多次对数据集进行重新采样并每次计算平均值,则这些均值将遵循正态分布(通过CLT)。因此,您可以对数据集的平均值计算置信区间,而无需对数据集的概率分布进行任何假设。 我想知道您是否可以对差异做类似的事情。也就是说,如果我要多次从数据集中重新采样并每次计算方差,那么这些方差会遵循一定的分布吗(不管数据集的原始概率分布是什么)? 我知道,如果原始数据集是正态的,则方差将遵循卡方分布。但是在不正常的情况下该怎么办?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.