使用自举获得1％的抽样分布

我有一个人口样本（大小为250）。我不知道人口的分布。

主要问题：我想要对人口的^第一个百分点进行点估计，然后我希望在我的点估计周围有95％的置信区间。

我的估计值将是样本^1st- percentile。我将其表示为。 $x$

之后，我尝试围绕点估计值建立置信区间。我不知道在这里使用引导是否有意义。我对Bootstrap缺乏经验，所以请谅解如果我没有使用适当的术语等。

这是我尝试的方法。我从原始样本中抽取了1000个随机样本进行替换。我得到1 ^日从他们每个人的百分位。因此，我有1000点- “1 ^日 -percentiles”。我看一下这1000点的经验分布。我表示它的平均值。我将“偏差”表示为：。我走2.5 ^个百分位和97.5 ^个百分点的1000点，以获得较低和较高端我所说周围1 95％的置信区间^ST百分位原始样品。我表示这些点和。 $x_{mean}$ $\text{bias}=x_{mean}-x$ $x_{0.025}$ $x_{0.975}$

最后剩下的步骤是适应这个置信区间是围绕1 ^日百分位的的人口，而不是周围的1 ^日百分位的的原始样本。因此，我将作为下端，将作为上端人口的^第一个百分位数的点估计值附近的95％置信区间的概率。这是我一直在寻找的时间间隔。 $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$

一个关键点，在我看来，是它是否有意义的使用引导1 ^日百分值是相当接近人口的未知潜在分布的尾部。我怀疑这可能有问题；考虑使用引导程序在最小（或最大）附近建立置信区间。

但是，也许这种方法有缺陷吗？请告诉我。

编辑：

转念一想这个问题有点多，我看到我的解决方案意味着：经验1 ^日百分原始样品的可能是1的偏估计^ST百分点的人口。如果是这样，则应该对点估计值进行偏差调整：。否则，偏差调整后的置信区间将与偏差未经调整的点估计不兼容。我需要调整点估计和置信区间，或者都不调整。 $x-\text{bias}$

另一方面，如果我不允许估计有偏差，则不必进行偏差调整。也就是说，我将作为点估计，将作为下限，将作为95％的上限。置信区间。我不确定这个间隔是否合理... $x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

所以，这有什么意义假设样品1 ^日百分比是人口1的偏估计^ST百分？如果不是，我的替代解决方案是否正确？

— 理查德·哈迪
source

这不会直接解决引导程序问题，但可能会对您有所帮助：onlinecourses.science.psu.edu/stat414/node/231

— shadowtalker 2014年

对于分布的极端情况，引导推断通常是可疑的。自举n值时，n值中的最小值或最大值 $n$ ，你有 $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ 您有机会重现您的样本极端观察值，并且大约 ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$ 有机会重现您的第二次极端观察结果，依此类推。您将获得确定性分布，该分布与尾部基础分布的形状无关。而且，即使分布的支持低于此值，引导程序也无法给您任何低于样本最小值的东西（大多数连续分布（如正态分布）就是这种情况）。

解决方案很复杂，并且依赖于极值理论的渐近性和少于n个观察值的二次抽样（实际上，次数更少，速率应收敛为零， $n\to\infty$ ）。

— 斯塔克
source

答案是有帮助的，但我想了解一下关于引导行为，第一个百分位数与最小百分位数有多接近？我猜想，在非常大的样本中，第1个百分位数可被视为距离最小值“很远”，而上面列出的问题可以忽略，而在较小的样本中，第1个百分位数将是最小值本身，并且问题将非常重要。因此，我们介于两者之间。我想在这方面，我的250个观测值的样本量应该算是很小的。

— 理查德·哈迪