假设我有一个样本和该样本的自举样本,用于统计(例如均值)。众所周知,该引导样本估算了统计量估计量的抽样分布。
现在,此引导样本的平均值是否比原始样本的统计更好地估计了人口统计?在什么情况下会是这种情况?
假设我有一个样本和该样本的自举样本,用于统计(例如均值)。众所周知,该引导样本估算了统计量估计量的抽样分布。
现在,此引导样本的平均值是否比原始样本的统计更好地估计了人口统计?在什么情况下会是这种情况?
Answers:
让我们概括一下,以便专注于问题的症结。我将阐明最微小的细节,以便毫不怀疑。分析仅需满足以下条件:
一组数字z 1,… ,z m的算术平均值定义为
期望是线性算子。 也就是说,当是随机变量和α 我是数字,那么线性组合的期望是的期望的线性组合,
设为从数据集x = (x 1,… ,x n)获得的样本(B 1,… ,B k),方法是从x均匀取k个元素并替换。让米(乙)是算术平均值乙。这是一个随机变量。然后
遵循期望的线性关系。由于的元素都是以相同的方式获得的,因此它们都有相同的期望,b说:
这样简化了
根据定义,期望是值的概率加权总和。由于假设每个值都有相等的机会被选择为1 / n,
数据的算术平均值。
为了回答这个问题,如果一个使用数据意味着来估计总体均值,然后引导平均值(这是这种情况ķ = Ñ)也等于ˉ X,因此是相同的,随着人口平均的估计。
对于不是数据线性函数的统计信息,不一定需要相同的结果。但是,仅将引导程序平均值替换为数据上的统计值是错误的:这不是引导程序的工作原理。相反,通过将自举平均值与数据统计量进行比较,我们可以获得有关统计量偏差的信息。这可用于调整原始统计信息以消除偏差。这样,经过偏差校正的估计就成为原始统计量和自举平均值的代数组合。有关更多信息,请查找“ BCa”(经过偏置校正和加速的引导程序)和“ ABC”。 维基百科提供了一些参考。