当一个自举参数获取标准误差时,我们得到该参数的分布。为什么我们不使用该分布的均值作为我们试图获取的参数的结果或估计呢?分布不应该近似真实分布吗?因此,我们将对“真实”价值有一个很好的估计吗?但是,我们报告了从样本中获得的原始参数。这是为什么?
谢谢
当一个自举参数获取标准误差时,我们得到该参数的分布。为什么我们不使用该分布的均值作为我们试图获取的参数的结果或估计呢?分布不应该近似真实分布吗?因此,我们将对“真实”价值有一个很好的估计吗?但是,我们报告了从样本中获得的原始参数。这是为什么?
谢谢
Answers:
因为自举统计数据是对总体参数的又一抽象。您具有总体参数,样本统计信息,并且仅在第三层具有引导程序。对于您的总体参数,自举平均值不是更好的估计器。这只是估算值的估算值。
当,包含所有可能的自举组合的引导分布以样本统计为中心,就像在相同条件下以总体参数为样本的统计中心一样。本文在这里总结这些东西相当不错,它是最简单的我能找到一个。有关更详细的证明,请遵循他们引用的论文。值得注意的例子是埃夫隆(1979)和辛格(1981)
的自举分布如下的分布θ - θ,这使得它在一个样本估计的标准误差的估计是有用的,在置信区间的结构,并且在一个参数的偏差的估计。它并不能使其成为总体参数的更好估计器。它只是为通常的参数分布提供了有时更好的统计分布。
至少有一种情况,人们确实使用了引导分布的平均值:装袋(bootstrap aggregation的缩写)。
基本思想是,如果您的估计器对数据的扰动非常敏感(即,估计器具有高方差和低偏差),则可以对大量的自举样本求平均值,以减少特定示例的过拟合量。
我链接到的页面指出,这给您的估计带来了一些偏差,这就是为什么样本均值通常比对引导样本取平均值更有意义。但是,如果您有决策树或最近的邻居分类器之类的东西可以响应于数据中的细微变化而发生根本性变化,那么这种偏见就不会像过拟合那样大。