自举样本的均值与样本的统计量


18

假设我有一个样本和该样本自举样本,用于统计(例如均值)。众所周知,该引导样本估算了统计量估计量的抽样分布χ

现在,此引导样本的平均值是否比原始样本的统计更好地估计了人口统计?在什么情况下会是这种情况?


2
引导样本的平均值平均样品的,你不需要在这种情况下,引导样品。
西安

1
谢谢@西安,我不确定我是否遵循。自举样本的平均值在数值上可能与样本的平均值不同。您是否要说两者在理论上仍然相等?你能在两端确认吗?
Amelio Vazquez-Reina 2015年

2
让我们弄清楚术语的含义:“引导程序样本”可以引用数据中的特定替换样本,也可以引用一个(多变量)随机变量,此类样本将被视为一种实现。您的理解是,实现的均值可能不同于数据的均值,但是@ Xi'an提供了更相关的观察结果,即随机变量的均值(按定义是总体均值自举估计)必须一致与数据的平均值。
ub

1
然后,您的问题几乎与stats.stackexchange.com/questions/126633/…相同;唯一的区别是引导程序示例实现可以重叠,但是答案中给出的分析很容易转移到引导程序情况,结果相同。
whuber

1
我看到了@whuber的连接,尽管在引导程序中有一个“替换子集”,并且实现可能会重叠,如您所说。我可以想象一下,用于在引导程序中获取重采样的分布(例如伪随机性)也会影响引导程序采样的估计偏差。也许答案是,对于所有实际问题,差异都是可以忽略的。这就是问题的根源:条件,微妙之处以及实践上的差异。
Amelio Vazquez-Reina 2015年

Answers:


19

让我们概括一下,以便专注于问题的症结。我将阐明最微小的细节,以便毫不怀疑。分析仅需满足以下条件:

  1. 一组数字z 1z m算术平均值定义为z1,,zm

    1m(z1++zm).
  2. 期望是线性算子。 也就是说,当是随机变量和α 是数字,那么线性组合的期望是的期望的线性组合,ž一世一世=1个α一世

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

为从数据集x = x 1x n获得的样本B 1B k,方法是从x均匀取k个元素并替换。让是算术平均值。这是一个随机变量。然后B(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

遵循期望的线性关系。由于的元素都是以相同的方式获得的,因此它们都有相同的期望,b说:Bb

E(B1)==E(Bk)=b.

这样简化了

E(m(B))=1k(b+b++b)=1k(kb)=b.

根据定义,期望是值的概率加权总和。由于假设每个值都有相等的机会被选择为1 / nX1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

数据的算术平均值。

为了回答这个问题,如果一个使用数据意味着来估计总体均值,然后引导平均值(这是这种情况ķ = Ñ)也等于ˉ X,因此是相同的,随着人口平均的估计。x¯k=nx¯


对于不是数据线性函数的统计信息,不一定需要相同的结果。但是,仅将引导程序平均值替换为数据上的统计值是错误的:这不是引导程序的工作原理。相反,通过将自举平均值与数据统计量进行比较,我们可以获得有关统计量偏差的信息。这可用于调整原始统计信息以消除偏差。这样,经过偏差校正的估计就成为原始统计量和自举平均值的代数组合。有关更多信息,请查找“ BCa”(经过偏置校正和加速的引导程序)和“ ABC”。 维基百科提供了一些参考。


您的意思是引导平均值的期望等于数据平均值,不是吗?自举平均值本身不是由(原始)数据样本确定的。
capybaralet

@ user2429920引导程序平均值是由样本确定的统计信息。从这个意义上讲,它与样本均值相同。从采样分布的意义上考虑了它的期望。我怀疑您可能会使用“期望”,这与通过重复替换替换的二次抽样来计算自举平均值的过程不同。
ub

1
我认为最后一段是对这个问题的实际答案,因为它是一般性的,而不仅关注均值统计。我对OP也有同样的疑问,但我不知道BCa的存在。尽管此答案中的演示对我没有多大帮助(我没有使用均值作为统计数据),但最后一段非常清楚问题的症结所在。我相信西安的回答也可以解决使用均值统计的情况,因此也是同样的问题。谢谢!
加百利

1
@Gabriel好点。我检查了记录:在编辑之前,该问题最初询问均值。这就是答案似乎如此集中于该统计数据的原因。
ub

9

F^n(x)=1ni=1nIXixXiiidF(x),
the mean of the bootstrap distribution is
EF^n[X]=1ni=1nXi=X¯n
When you (if you have to) implement a simulation version of this expectation, i.e., an average of random draws, there is Monte Carlo variability in this approximation of EF^n[X], but its mean (the expactation of the empirical average) and its limit when the number of bootstrap simulations grows to infinity are both exactly X¯n.

2
+1 This is the answer I originally wanted to write, but feared it might be too opaque for some readers. I nevertheless am glad to see it so elegantly presented. I'm not sure what you mean in your last sentence, though, where you appear to differentiate the "expectation" of the simulated approximation to the mean from its "limit": since the expectation is constant (it does not vary with simulation size), there really isn't any limit to take.
whuber

@whuber: Thank you for the comment and sorry for writing my terse answer exactly at the same time as yours! Your explanations are certainly more readable by novices in bootstrap. I corrected the final sentence, whose limiting part is the law of large numbers.
Xi'an

3
Your use of "mean" in that last sentence is quite ambiguous! I figured it out from your LLN clue. For any finite simulation of the bootstrap distribution, each sample in the simulation produces its own mean (there's one meaning of "mean"). The average of all those samples in a given simulation produces a simulation mean (there's another meaning). The simulation mean converges to a constant as the simulation size grows large, which is the bootstrap mean (a third meaning), and this equals the sample mean (the fourth meaning). (And this estimates the population mean--a fifth meaning!)
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.