有关参数和非参数引导程序的问题

14

我正在阅读凯文·墨菲（Kevin Murphy）的著作《机器学习-概率论》中有关频繁统计的章节。引导程序部分内容为：

引导程序是一种简单的蒙特卡洛技术，用于近似采样分布。这在估算器是真实参数的复杂函数的情况下特别有用。

这个想法很简单。如果我们知道真实参数，则对于，我们可以从真实分布生成许多（例如）伪数据集，每个伪数据集的大小为。然后，我们可以根据每个样本计算估计量，然后将所得样本的经验分布用作我们对采样分布的估计。由于是未知的，因此参数引导程序的想法是改为使用生成样本。 $θ^∗$ $S$ $N$ $x_i^s \sim p (·| θ^∗ )$ $s = 1 : S, i = 1 : N$ $\hat{\theta^s}=f (x^s_{1:N})$ $\theta$ $\hat{\theta}(D)$

一种替代方法，称为非参数引导程序，是从原始数据采样 $x^s_i$ （并进行替换），然后像以前一样计算导出的分布。（Kleiner et al。2011）中讨论了一些在应用于海量数据集时加快引导程序的方法。 $D$

1。文字说：

如果我们知道真实的参数 $\theta^*$ ...，则可以从每个样本计算出估计量 $\hat{\theta^s}$ ...

但是，如果我已经知道真实的参数为什么还要使用每个样本的估计量 $\theta^*$ 呢？

2。另外，经验分布和采样分布之间有什么区别？
3。最后，我有些不明白之间的差别参数和非参数从这段文字引导。他们都根据观测值推导，但是到底有什么区别呢？ $\theta$ $D$

bootstrap frequentist

— 阿梅里奥·巴斯克斯·雷纳（Amelio Vazquez-Reina）
source

14

miura给出的答案并不完全准确，因此我为后代回答这个老问题：

（2）。这些是完全不同的东西。经验CDF是对生成数据的CDF（分布）的估计。确切地说，是离散CDF将概率分配给每个观察到的数据点，每个。该估计量收敛到真正的cdf：几乎可以确定每个（实际上是均匀地）。 $1/n$ $\hat{F}(x) = \frac{1}{n}\sum_{i=1}^n I(X_i\leq x)$ $x$ $\hat{F}(x) \to F(x) = P(X_i\leq x)$ $x$

统计量的抽样分布是您希望在重复实验下看到的统计量的分布。也就是说，您只需执行一次实验并收集数据。是数据的函数：。现在，假设您重复实验并收集数据。在新样本上重新计算T得出。如果我们收集100个样本，我们将有100个估计值。的这些观察形成的抽样分布 $T$ ${X_1,\ldots,X_n}$ $T$ $T = T(X_1,\ldots,X_n)$ ${X'_1,\ldots,X'_n}$ $T' = T({X'_1,\ldots,X'_n})$ $T$ $T$ $T$ 。这是一个真实的分布。随着实验数量达到无穷大，其均值收敛于，其方差收敛于。 $E(T)$ $Var(T)$

通常，我们当然不会重复这样的实验，我们只会看到一个实例。如果您不知道先验的潜在概率函数，则很难从单个观察中找出的方差。自举是一种通过人为地运行“新实验” 来估计的采样分布的方法，在该实验上可以计算新实例。每个新样本实际上只是原始数据的重采样。与原始数据相比，它为您提供的信息更多，这是神秘而又令人敬畏的。 $T$ $T$ $T$ $T$ $T$

（1）。您是正确的-您不会这样做。作者试图通过将参数引导程序描述为“如果您知道分布，您会怎么做”，而是用分布函数的一个很好的估算器-经验cdf来激励它。

例如，假设您知道您的测试统计量正态分布为均值为零，方差为1。您如何估计的采样分布？好吧，因为您知道分布，所以估算采样分布的一种愚蠢且多余的方法是使用R生成10,000个左右的标准正态随机变量，然后取其样本均值和方差，并将其用作我们对均值和的采样分布的方差。 $T$ $T$ $T$

如果我们不事先知道的参数，但是我们知道它是正态分布的，我们可以做的是从经验cdf生成10,000个左右的样本，对每个样本计算，然后取样本均值和这10,000个 s的方差，并将它们用作我们对的期望值和方差的估计。由于经验cdf是真实cdf的良好估计，因此样本参数应收敛到真实参数。这是参数引导程序：您在要估计的统计信息上建立模型。该模型由一个参数索引，例如，您可以根据ecdf的重复采样进行估算。 $T$ $T$ $T$ $T$ $(\mu, \sigma)$

（3）。非参数引导程序甚至不需要您先验地知道是正态分布的。取而代之的是，您只需从ecdf中提取重复的样本，然后对每个样本计算在绘制了大约10,000个样本并计算了10,000 s之后，您可以绘制估计的直方图。这是采样分布的可视化 $T$ $T$ $T$ $T$ 。非参数引导程序不会告诉您采样分布是正态分布或伽玛等，但是它使您可以根据需要精确地（通常）估算采样分布。与参数引导程序相比，它进行的假设较少，提供的信息较少。如果参数假设为true，则精度较低，但如果为false，则精度较高。在每种情况下遇到哪种情况完全取决于上下文。诚然，越来越多的人熟悉非参数引导程序，但是通常，弱的参数假设会使完全难以处理的模型易于估计，这很可爱。

— 来宾47
source

1

我对您对参数引导程序的描述感到困惑，“我们可以做的是从经验CDF生成10,000个左右的样本”。我对参数引导程序的理解是，您将从适合数据的模型中进行采样。这就是墨菲（Murphy）书中的原始报价所描述的内容。我可能会误读，但是从经验CDF数据中采样将直接对数据点进行采样，这将是标准的引导程序，不是吗？

— user20160

@ user20160您误解了答案的“代替”：他是在描述非参数引导程序，而不是参数引导程序。

— daknowles

4

我非常感谢guest47所做的努力，但在某些小方面，我不太同意他的回答。我不会直接提出我的分歧，而是在这个答案中反映出来。

在许多情况下，当我们已经知道真实的基础参数时，计算是多余的。然而，它仍然是有用的，当我们想看看的准确度和精密度在估算。此外，引文中的第一段将使您更容易理解“参数引导程序”的概念，我将在稍后对此进行介绍。 $\hat\theta s$ $\theta*$ $\hat\theta s$ $\theta*$
Guest47给出了很好的答案。无需详细说明。
在参数引导中，您拥有的是观测数据D。您想出一个参数模型来拟合数据，并对真实参数使用估计器（它是数据D的函数）。然后，使用从参数模型生成数千个数据集，并为这些模型估计。在非参数自举中，您可以直接使用D，直接从D（而不是从生成的数据）采样（数千次）。 $\hat\theta$ $\theta*$ $\hat\theta$ $\hat\theta s$

— 庆元丰
source

2

我不是专家，但是值得：

正如您对报价的分布感兴趣，如报价的第一句话所述。
经验分布是您在有限数量的样本中看到的分布。如果您要采样无限数量的样本，则将看到采样分布。

我无法回答3.我一直都将这里所说的非参数引导称为“ the”引导。

如果您还没有完全掌握采样分布的概念，这里有一个非常不错的线程，具有非常说明性的R代码。

— 三浦
source

5

参数引导程序和非参数引导程序之间的区别在于，前者使用估计的参数值从数据（假定的）分布中生成样本，而后者通过从观察到的数据中进行替换进行采样来生成样本（未假设参数模型）。

— jbowman

@jbowman-“非参数”引导程序确实具有基础模型-只是它与用于激励参数估计的模型不同。

— 概率

@miura请不要破坏您的答案。如果您希望询问者选择其他答案，请在问题下方进行评论。如果您想删除答案，请对其进行标记并提出要求。

— Glen_b-恢复莫妮卡