有关参数和非参数引导程序的问题


14

我正在阅读凯文·墨菲(Kevin Murphy)的著作《机器学习-概率论》中有关频繁统计的章节。引导程序部分内容为:

引导程序是一种简单的蒙特卡洛技术,用于近似采样分布。这在估算器是真实参数的复杂函数的情况下特别有用。

这个想法很简单。如果我们知道真实参数,则对于s = 1,我们可以从真实分布x_i ^ s \ sim p(·|θ^ ∗)生成许多​​(例如)伪数据集,每个伪数据集的大小为N : S,i = 1:N。然后,我们可以根据每个样本\ hat {\ theta ^ s} = f(x ^ s_ {1:N})计算估计量,然后 将所得样本的经验分布用作我们对采样分布的估计。由于\ theta是未知的,因此参数引导程序的想法是改为使用\ hat {\ theta}(D)生成样本。小号Ñ X 小号p· | θ *小号=1小号=1Ñ ^ θ 小号 =˚F X 小号1 ÑθθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

一种替代方法,称为非参数引导程序,是从原始数据D中采样 xis(并进行替换),然后像以前一样计算导出的分布。(Kleiner et al。2011)中讨论了一些在应用于海量数据集时加快引导程序的方法。D

  • 1。文字说:

    如果我们知道真实的参数θ ...,则可以从每个样本\ hat {\ theta ^ s}中计算出估计量θs^...

        但是,如果我已经知道真实的参数\ theta ^ *,为什么还要使用每个样本的估计量θ呢?

  • 2。另外,经验分布和采样分布之间有什么区别?

  • 3。最后,我有些不明白之间的差别参数非参数从这段文字引导。他们都根据观测值推导,但是到底有什么区别呢?dθD

Answers:


14

miura给出的答案并不完全准确,因此我为后代回答这个老问题:

(2)。这些是完全不同的东西。经验CDF是对生成数据的CDF(分布)的估计。确切地说,是离散CDF将概率分配给每个观察到的数据点,每个。该估计量收敛到真正的cdf:几乎可以确定每个(实际上是均匀地)。˚FX = 11/nX ˚FX˚FX=PXXXF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

统计量的抽样分布是您希望在重复实验下看到的统计量的分布。也就是说,您只需执行一次实验并收集数据。是数据的函数:。现在,假设您重复实验并收集数据。在新样本上重新计算T得出。如果我们收集100个样本,我们将有100个估计值。的这些观察形成的抽样分布X 1... X Ñ Ť Ť = Ť X 1... X ÑX ' 1... X ' Ñ Ť ' = Ť X ' 1... X ' ÑŤ Ť Ť È Ť V - [R Ť TX1,,XnTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT。这是一个真实的分布。随着实验数量达到无穷大,其均值收敛于,其方差收敛于。E(T)Var(T)

通常,我们当然不会重复这样的实验,我们只会看到一个实例。如果您不知道先验的潜在概率函数,则很难从单个观察中找出的方差。自举是一种通过人为地运行“新实验” 来估计的采样分布的方法,在该实验上可以计算新实例。每个新样本实际上只是原始数据的重采样。与原始数据相比,它为您提供的信息更多,这是神秘而又令人敬畏的。T T T TTTTTT

(1)。您是正确的-您不会这样做。作者试图通过将参数引导程序描述为“如果您知道分布,您会怎么做”,而是用分布函数的一个很好的估算器-经验cdf来激励它。

例如,假设您知道您的测试统计量正态分布为均值为零,方差为1。您如何估计的采样分布?好吧,因为您知道分布,所以估算采样分布的一种愚蠢且多余的方法是使用R生成10,000个左右的标准正态随机变量,然后取其样本均值和方差,并将其用作我们对均值和的采样分布的方差。牛逼牛逼TTT

如果我们事先知道的参数,但是我们知道它是正态分布的,我们可以做的是从经验cdf生成10,000个左右的样本,对每个样本计算,然后取样本均值和这10,000个 s的方差,并将它们用作我们对的期望值和方差的估计。由于经验cdf是真实cdf的良好估计,因此样本参数应收敛到真实参数。这是参数引导程序:您在要估计的统计信息上建立模型。该模型由一个参数索引,例如,您可以根据ecdf的重复采样进行估算。TTTT(μ,σ)

(3)。非参数引导程序甚至不需要您先验地知道是正态分布的。取而代之的是,您只需从ecdf中提取重复的样本,然后对每个样本计算在绘制了大约10,000个样本并计算了10,000 s之后,您可以绘制估计的直方图。这是采样分布的可视化TTTT。非参数引导程序不会告诉您采样分布是正态分布或伽玛等,但是它使您可以根据需要精确地(通常)估算采样分布。与参数引导程序相比,它进行的假设较少,提供的信息较少。如果参数假设为true,则精度较低,但如果为false,则精度较高。在每种情况下遇到哪种情况完全取决于上下文。诚然,越来越多的人熟悉非参数引导程序,但是通常,弱的参数假设会使完全难以处理的模型易于估计,这很可爱。


1
我对您对参数引导程序的描述感到困惑,“我们可以做的是从经验CDF生成10,000个左右的样本”。我对参数引导程序的理解是,您将从适合数据的模型中进行采样。这就是墨菲(Murphy)书中的原始报价所描述的内容。我可能会误读,但是从经验CDF数据中采样将直接对数据点进行采样,这将是标准的引导程序,不是吗?
user20160

@ user20160您误解了答案的“代替”:他是在描述非参数引导程序,而不是参数引导程序。
daknowles

4

我非常感谢guest47所做的努力,但在某些小方面,我不太同意他的回答。我不会直接提出我的分歧,而是在这个答案中反映出来。

  1. 在许多情况下,当我们已经知道真实的基础参数时,计算是多余的。然而,它仍然是有用的,当我们想看看的准确度和精密度在估算。此外,引文中的第一段将使您更容易理解“参数引导程序”的概念,我将在稍后对此进行介绍。θ^sθθ^sθ

  2. Guest47给出了很好的答案。无需详细说明。

  3. 在参数引导中,您拥有的是观测数据D。您想出一个参数模型来拟合数据,并对真实参数使用估计器(它是数据D的函数)。然后,使用从参数模型生成数千个数据集,并为这些模型估计。在非参数自举中,您可以直接使用D,直接从D(而不是从生成的数据)采样(数千次)。 θ^θθ^θ^s


2

我不是专家,但是值得:

  1. 正如您对报价的分布感兴趣,如报价的第一句话所述。

  2. 经验分布是您在有限数量的样本中看到的分布。如果您要采样无限数量的样本,则将看到采样分布。

我无法回答3.我一直都将这里所说的非参数引导称为“ the”引导。

如果您还没有完全掌握采样分布的概念,这里有一个非常不错的线程,具有非常说明性的R代码。


5
参数引导程序和非参数引导程序之间的区别在于,前者使用估计的参数值从数据(假定的)分布中生成样本,而后者通过从观察到的数据中进行替换进行采样来生成样本(未假设参数模型) 。
jbowman

@jbowman-“非参数”引导程序确实具有基础模型-只是它与用于激励参数估计的模型不同。
概率

@miura请不要破坏您的答案。如果您希望询问者选择其他答案,请在问题下方进行评论。如果您想删除答案,请对其进行标记并提出要求。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.