引导程序样本与原始样本完全相同的机会


9

只想检查一些推理。

如果我的原始样本大小为并且我对其进行引导,那么我的思考过程如下:n

1n是从原始样本中提取任何观察值的机会。为了确保下一次绘制不是先前采样的观测值,我们将样本大小限制为。因此,我们得到以下模式:n1

1个ñ1个ñ-1个1个ñ-21个ñ-ñ-1个=1个ñ

它是否正确?我偶然发现了为什么不能。1个ññ


1
我不确定我是否关注您。为什么要“确保下一次抽奖不是先前的样本”?在引导过程中,其想法是进行替换采样。也就是说,您确实希望下一次绘制与您已经绘制的相同。
gung-恢复莫妮卡

但这是否意味着引导样本与原始样本不同?
Jayant.M

我不跟着你。您不一定要使引导样本与您的样本相同,您只想将样本视为总体模型。
gung-恢复莫妮卡

1
所以我的问题是,引导程序样本与原始样本相同的机会是多少?我对引导程序与示例完全相同感兴趣
-Jayant.M

对不起,如果我的问题不清楚!
Jayant.M,

Answers:


17

请注意,在每个观察位置(),我们可以选择任何的ñ意见,所以有ñ ñ可能重复采样(保持它们被绘制的顺序),其中ñ 是“相同的样本”(即包含所有n个原始观测值,没有重复;这说明了从头开始的所有订购样本的方式)。一世=1个2ññññññ

例如,对于三个观测值a,b和c,您有27个可能的样本:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

其中的六个分别包含a,b和c。

那么是取回原始样本的概率。ñ/ññ

撇开-概率的快速近似值:

考虑

2π ññ+1个2Ë-ññË ññ+1个2Ë-ñ

所以

2π n12enn!/nne n12en

下限是通常的斯特林近似值(对于较大的,其相对误差较低)。ñ

[Gosper 建议使用这将产生近似ñ2ñ+1个3πññË-ñ表示此概率,根据您的标准有多严格,该概率在 n = 3甚至在 n = 1时都可以正常工作。2ñ+1个3πË-ññ=3ñ=1个


(回应评论:)在给定的重采样中未得到特定观察的概率为,对于大的n,大约为e-11个-1个ñññË-1个

有关详细信息,请参阅
为什么每个引导程序样本平均平均包含大约三分之二的观测值?


谢谢!作为兴趣点,没有在样本中获得特定条目的机会是什么?例如与分配你给了,有8/27的几率不是一个得到一个样本的一个一个bC一个
Jayant.M

1
网站上的其他答案已经涵盖了这一点,但是我已经在上面(简短地)添加了它。
Glen_b-恢复莫妮卡(Monica)

1
因此,这是获得样本的概率,该样本是原始样本的排列。相反,获得与原始样本完全相同的序列(因此,相同元素以相同顺序)的概率为。对?1个ññ
DeltaIV

1
@deltaiv是的,只有安排是按原始顺序进行的。ñ
Glen_b-恢复莫妮卡(Monica)

1
即使降低到,而不仅仅是降低到n = 3,Gosper的逼近方法也不能很好地工作?我认为0.499(对于n = 2)非常近似于0.5,而0.996(对于n = 1)也非常接近1.0。ñ=1个ñ=3ñ=2ñ=1个
卡尔·奥夫·汉弗汉默
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.