miura给出的答案并不完全准确,因此我为后代回答这个老问题:
(2)。这些是完全不同的东西。经验CDF是对生成数据的CDF(分布)的估计。确切地说,是离散CDF将概率分配给每个观察到的数据点,每个。该估计量收敛到真正的cdf:几乎可以确定每个(实际上是均匀地)。˚F(X )= 11/nX ˚F(X)→˚F(X)=P(X我≤X)XF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
统计量的抽样分布是您希望在重复实验下看到的统计量的分布。也就是说,您只需执行一次实验并收集数据。是数据的函数:。现在,假设您重复实验并收集数据。在新样本上重新计算T得出。如果我们收集100个样本,我们将有100个估计值。的这些观察形成的抽样分布X 1,... ,X Ñ Ť Ť = Ť (X 1,... ,X Ñ)X ' 1,... ,X ' Ñ Ť ' = Ť (X ' 1,... ,X ' Ñ)Ť Ť Ť È (Ť )V 一- [R (Ť )TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT。这是一个真实的分布。随着实验数量达到无穷大,其均值收敛于,其方差收敛于。E(T)Var(T)
通常,我们当然不会重复这样的实验,我们只会看到一个实例。如果您不知道先验的潜在概率函数,则很难从单个观察中找出的方差。自举是一种通过人为地运行“新实验” 来估计的采样分布的方法,在该实验上可以计算新实例。每个新样本实际上只是原始数据的重采样。与原始数据相比,它为您提供的信息更多,这是神秘而又令人敬畏的。T T T TTTTTT
(1)。您是正确的-您不会这样做。作者试图通过将参数引导程序描述为“如果您知道分布,您会怎么做”,而是用分布函数的一个很好的估算器-经验cdf来激励它。
例如,假设您知道您的测试统计量正态分布为均值为零,方差为1。您如何估计的采样分布?好吧,因为您知道分布,所以估算采样分布的一种愚蠢且多余的方法是使用R生成10,000个左右的标准正态随机变量,然后取其样本均值和方差,并将其用作我们对均值和的采样分布的方差。牛逼牛逼TTT
如果我们不事先知道的参数,但是我们知道它是正态分布的,我们可以做的是从经验cdf生成10,000个左右的样本,对每个样本计算,然后取样本均值和这10,000个 s的方差,并将它们用作我们对的期望值和方差的估计。由于经验cdf是真实cdf的良好估计,因此样本参数应收敛到真实参数。这是参数引导程序:您在要估计的统计信息上建立模型。该模型由一个参数索引,例如,您可以根据ecdf的重复采样进行估算。TTTT(μ,σ)
(3)。非参数引导程序甚至不需要您先验地知道是正态分布的。取而代之的是,您只需从ecdf中提取重复的样本,然后对每个样本计算在绘制了大约10,000个样本并计算了10,000 s之后,您可以绘制估计的直方图。这是采样分布的可视化TTTT。非参数引导程序不会告诉您采样分布是正态分布或伽玛等,但是它使您可以根据需要精确地(通常)估算采样分布。与参数引导程序相比,它进行的假设较少,提供的信息较少。如果参数假设为true,则精度较低,但如果为false,则精度较高。在每种情况下遇到哪种情况完全取决于上下文。诚然,越来越多的人熟悉非参数引导程序,但是通常,弱的参数假设会使完全难以处理的模型易于估计,这很可爱。