统计和大数据 jackknife

2

我试图理解不同重采样方法（蒙特卡罗模拟，参数自举，非参数自举，顶峰，交叉验证，随机化测试和置换测试）之间的区别，以及它们在我自己的环境中使用R的实现。假设我遇到以下情况–我想对Y变量（Yvar）和X变量（Xvar）执行ANOVA 。Xvar是绝对的。我对以下事情感兴趣：（1）p值的意义–错误发现率（2）效果Xvar等级大小 Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) 您能帮我用明确的工作示例解释采样差异吗，这些重采样方法是如何工作的？编辑：这是我的尝试： Bootstrap 10个Bootstrap样本，样本数量已替换，意味着可以重复样本 boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] …

73 r bootstrap resampling jackknife permutation-test

1

Bootstrap与Jackknife

引导法和折刀法都可以用来估计估计值的偏差和标准误差，并且两种重采样方法的机制也没有很大的不同：一次替换采样与一次不进行观察。但是，折刀在研究和实践中不像自举法那样受欢迎。使用引导程序而不使用折刀刀有明显的优势吗？

49 r confidence-interval bootstrap jackknife

2

折刀vs.LOOCV

折刀和遗漏交叉验证之间真的有什么区别吗？该过程似乎相同，我是否缺少某些内容？

15 cross-validation jackknife

1

千斤顶有当代用途吗？

问题是：自举优于捆绑。但是，我想知道是否存在套刀技术是唯一或至少可行的方法来表征参数估计值的不确定性。此外，在实际情况下，相对于自举，斜切是如何产生偏见/不准确的，在开发更复杂的引导程序之前，斜切结果能否提供初步的见解？某些情况：朋友正在使用黑盒机器学习算法（MaxEnt）对“仅在场”或“仅在场”的地理数据进行分类。一般模型评估通常使用交叉验证和ROC曲线进行。但是，她正在使用模型的输出来导出模型输出的单个数字描述，并希望该数字周围有一个置信区间；折磨似乎是表征此值不确定性的一种合理方法。引导似乎没有意义，因为每个数据点都是地图上的唯一位置，无法通过替换进行重新采样。建模程序本身也许能够最终提供她所需要的东西。但是，我对一般情况是否有用/什么时候使您感兴趣。

12 machine-learning cross-validation bootstrap maximum-entropy jackknife

1

为什么在进行多元回归时有理由向后消除？

它不会导致过度拟合吗？如果在分析中添加千斤顶或自举程序，我的结果会更可靠吗？

9 multiple-regression bootstrap reliability overfitting jackknife

Questions tagged «jackknife»