使用自举获得1%的抽样分布


9

我有一个人口样本(大小为250)。我不知道人口的分布。

主要问题:我想要对人口的一个百分点进行点估计,然后我希望在我的点估计周围有95%的置信区间。

我的估计值将是样本1st- percentile。我将其表示为。X

之后,我尝试围绕点估计值建立置信区间。我不知道在这里使用引导是否有意义。我对Bootstrap缺乏经验,所以请谅解如果我没有使用适当的术语等。

这是我尝试的方法。我从原始样本中抽取了1000个随机样本进行替换。我得到1 从他们每个人的百分位。因此,我有1000点- “1 -percentiles”。我看一下这1000点的经验分布。我表示它的平均值。我将“偏差”表示为:。我走2.5 百分位和97.5 百分点的1000点,以获得较低和较高端我所说周围1 95%的置信区间ST百分位原始样品。我表示这些点和。XË一个ñ偏压=XË一个ñ-XX0.025X0.975

最后剩下的步骤是适应这个置信区间是围绕1 百分位的的人口,而不是周围的1 百分位的的原始样本。因此,我将作为下端,将作为上端人口的第一个百分位数的点估计值附近的95%置信区间的概率。这是我一直在寻找的时间间隔。X-偏压-XË一个ñ-X0.025X-偏压+X0.975-XË一个ñ

一个关键点,在我看来,是它是否有意义的使用引导1 百分值是相当接近人口的未知潜在分布的尾部。我怀疑这可能有问题;考虑使用引导程序在最小(或最大)附近建立置信区间。

但是,也许这种方法有缺陷吗?请告诉我。

编辑:

转念一想这个问题有点多,我看到我的解决方案意味着:经验1 百分原始样品的可能是1的偏估计ST百分点的人口。如果是这样,则应该对点估计值进行偏差调整:。否则,偏差调整后的置信区间将与偏差未经调整的点估计不兼容。我需要调整点估计和置信区间,或者都不调整。X-偏压

另一方面,如果我不允许估计有偏差,则不必进行偏差调整。也就是说,我将作为点估计,将作为下限,将作为95%的上限。置信区间。我不确定这个间隔是否合理...XX-XË一个ñ-X0.025X+X0.975-XË一个ñ

所以,这有什么意义假设样品1 百分比是人口1的偏估计ST百分?如果不是,我的替代解决方案是否正确?


这不会直接解决引导程序问题,但可能会对您有所帮助:onlinecourses.science.psu.edu/stat414/node/231
shadowtalker 2014年

Answers:


11

对于分布的极端情况,引导推断通常是可疑的。自举n值时,n值中的最小值或最大值ñ, 你有 1个-1个-1个/ññ1个-ËXp-1个=63.2 您有机会重现您的样本极端观察值,并且大约 ËXp-1个-ËXp-2=23.3有机会重现您的第二次极端观察结果,依此类推。您将获得确定性分布,该分布与尾部基础分布的形状无关。而且,即使分布的支持低于此值,引导程序也无法给您任何低于样本最小值的东西(大多数连续分布(如正态分布)就是这种情况)。

解决方案很复杂,并且依赖于极值理论的渐近和少于n个观察值的二次抽样(实际上,次数更少,速率应收敛为零,ñ)。


答案是有帮助的,但我想了解一下关于引导行为,第一个百分位数与最小百分位数有多接近?我猜想,在非常大的样本中,第1个百分位数可被视为距离最小值“很远”,而上面列出的问题可以忽略,而在较小的样本中,第1个百分位数将是最小值本身,并且问题将非常重要。因此,我们介于两者之间。我想在这方面,我的250个观测值的样本量应该算是很小的。
理查德·哈迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.