统计和大数据 resampling

2

我试图理解不同重采样方法（蒙特卡罗模拟，参数自举，非参数自举，顶峰，交叉验证，随机化测试和置换测试）之间的区别，以及它们在我自己的环境中使用R的实现。假设我遇到以下情况–我想对Y变量（Yvar）和X变量（Xvar）执行ANOVA 。Xvar是绝对的。我对以下事情感兴趣：（1）p值的意义–错误发现率（2）效果Xvar等级大小 Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) 您能帮我用明确的工作示例解释采样差异吗，这些重采样方法是如何工作的？编辑：这是我的尝试： Bootstrap 10个Bootstrap样本，样本数量已替换，意味着可以重复样本 boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] …

73 r bootstrap resampling jackknife permutation-test

5

您可以通过使用CV / Bootstrap训练机器学习算法来过度拟合吗？

这个问题很可能是开放性的，无法得出明确的答案，但希望不会。机器学习算法（例如SVM，GBM，Random Forest等）通常具有一些免费参数，除了一些经验法则之外，还需要针对每个数据集进行调整。通常使用某种重新采样技术（引导程序，CV等）来完成此过程，以适应给出最佳泛化误差的参数集。我的问题是，你可以在这里走得太远吗？人们都在谈论进行网格搜索，但是为什么不简单地将其视为优化问题并向下钻取最佳参数集呢？我在这个问题中询问了一些有关此问题的机制，但是并没有引起太多关注。也许这个问题被问得很严峻，但也许问题本身代表了人们通常不会采取的一种不好的做法？困扰我的是缺乏正规化。通过重新采样，我可能会发现，对于该数据集，GBM中生长的最佳树木数量为647，交互深度为4，但是我如何确定新数据确实如此（假设新种群）与训练集相同）？由于没有合理的“缩水”价值（或者如果您愿意，也没有提供任何先验信息），重新采样似乎是我们可以做的最好的事情。我只是没有听到任何有关此事的消息，所以让我想知道是否缺少某些东西。显然，要进行多次迭代以将模型的最后预测能力压缩出去，会产生大量的计算成本，因此，如果您有足够的时间/精力来进行优化和每一位操作，那么显然这是您要执行的操作性能改善是很有价值的。

34 machine-learning cross-validation bootstrap optimization resampling

2

自举如何很好地估计估计量的采样分布？

最近研究了引导程序后，我想到了一个概念性问题，但仍然使我感到困惑：您有一个人口，并且想知道一个人口属性，即，在这里我用代表人口。例如，这个可能是人口平均值。通常，您无法从总体中获取所有数据。因此，您从总体中得出了大小为的样本为了简单起见，假设您有iid示例。然后，您获得估算器。您想使用来推断，因此您想知道的可变性。P θ X Ñ θ = 克（X ）θ θ θθ = 克（P）θ=g(P)\theta=g(P)PPPθθ\thetaXXXñNNθ^= 克（X）θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} 首先，存在的真实采样分布。从概念上讲，您可以从总体中抽取许多样本（每个样本的大小均为）。每次您都有因为每次您都有不同的样本。然后最后，您将能够恢复的真实分布。好的，至少这是估算分布的概念基准。让我重申一下：最终目标是使用各种方法来估计或近似的真实分布。 Ñ θ =克（X）θ^θ^\hat{\theta}ñNNθ^= 克（X）θ^=g(X)\hat{\theta}=g(X) θθ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} 现在，问题来了。通常，只有一个样本包含数据点。然后，您可以多次从该样本中重新采样，然后得出的引导分布。我的问题是：此引导分布与的真实采样分布有多接近？有没有量化的方法？Ñ θXXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

29 bootstrap simulation resampling

2

为什么要使用分层交叉验证？为什么这不损害与差异相关的利益？

有人告诉我使用分层交叉验证是有益的，尤其是在响应类不平衡时。如果交叉验证的一个目的是帮助解释我们原始训练数据样本的随机性，那么除非您确定原始训练集具有代表性的阶级分布，否则确保使每一折具有相同的类别分布将不利于此。我的逻辑有缺陷吗？编辑我对这种方法是否会损害简历的价值很感兴趣。我可以理解为什么如果您的样本量很小/类别非常不平衡/两者都有，那么为了避免没有一个代表次要类别的代表，为什么有必要这样做。本文苹果对苹果在交叉验证研究：陷阱在分类绩效考核提出了分层的情况很好，但所有的论据似乎量“分层提供了保障和更多的一致性”，但没有安全保障就需要给予足够的数据。答案仅仅是“由于缺乏足够的数据，我们出于必要而使用它”。？

29 cross-validation resampling stratification

2

排列检验的假设是什么？

人们经常说置换测试没有假设，但是这肯定是不正确的。例如，如果我的样本之间存在某种关联，我可以想象对标签进行置换将不是正确的选择。唯一想到我发现的问题就是维基百科的这句话：“置换检验背后的一个重要假设是，观察值在原假设下是可以互换的。” 我不明白。排列检验的假设是什么？这些假设如何与不同的可能排列方案联系在一起？

22 hypothesis-testing permutation-test resampling

2

插入符号重采样方法

我正在使用caretR中的库来测试各种建模过程。该trainControl对象允许指定一种重采样方法。所述方法在被描述的文档部分2.3，其中包括：boot，boot632，cv，LOOCV，LGOCV，repeatedcv和oob。尽管其中一些方法易于推断，但并非所有这些方法都明确定义。这些重采样方法对应的程序是什么？

20 r resampling caret

2

对过采样的不平衡数据进行测试分类

我正在处理严重不平衡的数据。在文献中，使用几种方法通过重新采样（过采样或欠采样）来重新平衡数据。两种好的方法是： SMOTE：合成少数类过采样技术（SMOTE） ADASYN：用于失衡学习的自适应合成采样方法（ADASYN）我之所以实现ADASYN，是因为它具有自适应性并且易于扩展到多类问题。我的问题是如何测试由ADASYN产生的过采样数据（或任何其他过采样方法）。在上述两篇论文中还不清楚他们如何进行实验。有两种情况： 1-对整个数据集进行过采样，然后将其拆分为训练和测试集（或交叉验证）。 2-拆分原始数据集后，仅对训练集执行过采样，然后对原始数据测试集进行测试（可以通过交叉验证执行）。在第一种情况下，结果要比不进行过度采样好得多，但我担心是否存在过度拟合。在第二种情况下，结果比没有过采样的情况略好，但比第一种情况差得多。但是第二种情况的问题在于，如果所有少数族裔样本都进入测试集，那么过采样将不会带来任何好处。我不确定是否还有其他设置可以测试此类数据。

18 classification dataset resampling unbalanced-classes oversampling

2

测试IID采样

您将如何测试或检查采样是否为IID（独立且完全相同）？请注意，我不是指高斯和完全分布式，而只是IID。我想到的想法是，将样本重复分成相等大小的两个子样本，执行Kolmogorov-Smirnov检验，并检查p值的分布是否均匀。欢迎对该方法发表任何评论，并提出任何建议。开始赏金后的澄清：我正在寻找可用于非时间序列数据的常规测试。

16 hypothesis-testing independence kolmogorov-smirnov resampling iid

2

“引导程序验证”（又称为“重采样交叉验证”）的程序是什么？

“ Bootstrap验证” /“重新采样交叉验证”对我来说是新手，但对此问题的答案进行了讨论。我收集到的数据涉及2种类型的数据：真实数据和模拟数据，其中通过替换重采样从真实数据生成给定的一组模拟数据，直到模拟数据的大小与真实数据相同。我可以想到两种使用此类数据类型的方法：（1）一次拟合模型，对许多模拟数据集进行多次评估；（2）使用许多模拟数据集中的每一个对模型进行多次拟合，每次针对实际数据进行评估。哪个（如果有）最好？

15 cross-validation bootstrap validation resampling

2

关于Bootstrap重采样的最佳建议教科书？

我只是想问一问，您认为哪本书是最好的自助书。因此，我并不一定只指其开发人员编写的内容。您能否指出哪本教科书最适合您，并能满足以下条件？该技术的哲学/流行病学基础列出了适用范围，优点和缺点，对模型选择的重要性？一组很好的简单示例，显示了实现的基本原理，最好是在Matlab中？

14 sampling model-selection bootstrap references resampling

1

在文献中是否知道这种重新采样时间序列的方法？它有名字吗？

我最近在寻找重新采样时间序列的方法，大约保留长存储进程的自相关。保留观测值的范围（例如，重新采样的整数时间序列仍然是整数的时间序列）。如果需要，可能只影响某些比例尺。我针对长度为的时间序列提出了以下排列方案：2N2N2^N 通过成对的连续观测值对时间序列进行分类（有这样的分类）。分别以概率翻转它们中的每一个（即，从索引到）。2N−12N−12^{N-1}1:22:11/21/21/2 通过连续的观察值对获得的时间序列进行分类（其中有这样的分类）。用概率反转它们中的每一个（即从索引到索引）独立性。2 N - 24442N−22N−22^{N-2}1:2:3:44:3:2:11/21/21/2 与尺寸的仓重复该步骤，，...，总是逆转与概率仓。16 2 Ñ - 1 1 / 28881616162N−12N−12^{N-1}1/21/21/2 这种设计纯粹是经验性的，我正在寻找已经针对这种排列发布的作品。我也乐于接受其他排列或重采样方案的建议。

14 time-series bootstrap resampling permutation-test

3

为什么引导有用？

如果您所做的只是从经验分布中重新采样，为什么不仅仅研究经验分布呢？例如，为什么不仅仅通过经验分布来量化变异性，而不是通过重复采样研究变异性？

13 machine-learning mathematical-statistics sampling bootstrap resampling

1

自举样本均值时是否需要居中？

当阅读有关如何近似估计样本均值的分布时，我遇到了非参数自举方法。显然，可以通过的分布来近似的分布，其中表示样本均值引导程序样本。X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* 然后我的问题是：我需要居中吗？做什么的？我不能只用近似吗？P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P(X¯∗n≤x)P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

13 distributions bootstrap resampling centering

1

为什么不总是使用引导CI？

我想知道自举CI（以及Bca中的BCa）对正态分布数据的性能如何。似乎有很多工作要检查它们在各种类型的分布上的性能，但是在正态分布的数据上找不到任何东西。由于首先学习似乎很显然，所以我认为论文太旧了。我使用R引导程序包进行了一些蒙特卡洛仿真，发现引导CI与精确的CI一致，尽管对于小样本（N <20），它们倾向于比较宽松（较小的CI）。对于足够大的样本，它们基本上是相同的。这使我想知道是否有充分的理由不总是使用引导程序。鉴于评估分布是否正常的难度很大，并且存在许多陷阱，因此，不管分布如何，都不决定和报告引导配置项似乎是合理的。我了解不系统地使用非参数测试的动机，因为它们的功能较少，但是我的模拟告诉我，引导CI并非如此。它们甚至更小。让我感到困扰的一个类似问题是，为什么不总是使用中位数作为集中趋势的度量。人们通常建议使用它来表征非正态分布的数据，但是由于中位数与正态分布数据的平均值相同，为什么要加以区别？如果我们可以摆脱确定分布是否正常的过程，这似乎是非常有益的。我很好奇您对这些问题的想法，以及它们是否曾经被讨论过。参考将不胜感激。谢谢！皮埃尔

12 confidence-interval bootstrap normality-assumption resampling

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

Questions tagged «resampling»