为什么引导有用?


13

如果您所做的只是从经验分布中重新采样,为什么不仅仅研究经验分布呢?例如,为什么不仅仅通过经验分布来量化变异性,而不是通过重复采样研究变异性?


6
(在这种意义上,)引导分布代表我们参数的(近似)非参数,非信息后验分布。但是,这种引导分布是无痛获取的-无需正式指定先验且无需从后验分布进行采样。因此我们可能会认为引导分布是“穷人的”贝叶斯后验统计学习的要素 ”派8.4。
usεr11852

8
我们如何根据经验分布来量化估计的不确定性?
usεr11852

2
“在适度的规律性条件下,引导程序得出的估计量或检验统计量的分布近似值至少与从一阶渐近理论获得的近似值一样精确”。 unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf
jbowman

10
您正在争论,而不是试图理解。相信我,您还没有意识到,引导程序与大约四十年来成千上万的统计学家的做法毫无价值。您没有仔细阅读报价。我认为您未能掌握随机性在统计中发挥的关键作用。诸如“为什么要打扰!”之类的说法。至少可以说,“获得的分布是不寻常的。如果您不认为了解估计的分布很重要,则可能需要考虑为什么统计领域存在在所有,再认为。T(X)
jbowman

4
@ztyh你说:“如果你映射每个样本牛逼X ),你得到的分布牛逼X ”。也许你应该想想这个,你会怎么单点映射X 牛逼X = ˉ X?或任何功能Ť X 1X 2X Ñ为这一问题。XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

Answers:


18

自举(或其他重采样)是一种实验方法,用于估算统计信息的分布。

这是一种非常简单明了的方法(它意味着您可以使用样本数据的许多随机变量进行计算,以便获得所需的统计分布)。

当“理论/分析”表达式太难于获取/计算时(或者像阿克萨卡尔所说,有时它们是未知的),您最有可能使用它。

  • 示例1:如果您进行pca分析,并希望将结果与“特征值偏差的估计值” 进行比较,则前提是变量之间没有相关性。

    您可以对数据进行多次加密,然后重新计算pca特征值,以便获得特征值的分布(基于带有样本数据的随机测试)。

    请注意,当前的做法是注视着卵石图,并运用经验法则来“确定”某个特征值是否重要/重要。

  • 示例2:您进行了非线性回归 y〜f(x),从而为函数f提供了一堆参数估计值。 现在,您想知道这些参数的标准误差

    像OLS中一样,这里不可能简单地看一下残差和线性代数。但是,一种简单的方法是对残差/误差重新加扰多次计算相同的回归,以便了解参数如何变化(假定误差项的分布可以通过观察到的残差建模)。


StackExchangeStrike撰写


2
我认为您的例子不是引导程序。它只是从已知的空分布中采样。Bootstrap是您拥有一个样本并从该样本中再次重复采样的地方。
ztyh

3
在您的问题中,您想计算一个样本的方差,这确实很简单并且不需要自举。在我的示例中,我谈到一种情况,在这种情况下,我们有一个从样本得出的值。然后,我们不能再简单地计算方差了,我们仍然希望知道方差如何变化。通过多次对数据进行加扰并重新计算pca特征值,您可以获得遵循样本分布的分布(随机)数据。如果我没有记错的话这 所谓的引导。
Sextus Empiricus

好吧,我知道我在误解什么。您的示例很有道理。谢谢。
ztyh

8

关键是引导程序并不是真正要弄清楚数据分布的特征,而是要弄清楚应用于数据的估计器的特征。

诸如经验分布函数之类的东西将告诉您对数据所来自的CDF的相当不错的估计...但是通过隔离,它实际上告诉您我们根据该数据构建的估计器的可靠性如何。这是使用引导程序回答的问题。


1
使用(非参数)引导程序来查找“数据的分布”将是一件很有趣的事情:它仅带有经验分布函数,这正是分析师开始使用的数据集。当我“求解X”并找到“ X = X”时,使我想起了大学代数。
AdamO

3

如果您确切知道底层分布是什么,则无需研究它。有时,在自然科学中,您确切地知道分布。

如果您知道分布的类型,则只需要估计其参数,并按照您的意思进行研究即可。例如,有时您会先验地知道基础分布是正态的。在某些情况下,您甚至知道它的意思。因此,对于正常情况,唯一剩下的就是标准偏差。从样本中获得样本标准差,瞧,就可以得到分布进行研究。

如果您不知道分布是什么,但是认为它是列表中的几个分布之一,则可以尝试将这些分布适合数据,然后选择最合适的分布。然后,您研究该分布。

最后,通常您不知道要处理的发行类型。而且您没有理由相信它属于R可以适合您数据的20个分布之一。你会怎样做?好的,您查看平均值和标准偏差,很好。但是如果它歪斜了怎么办?如果峰度很大,该怎么办?等等。你真的需要知道分配给所有的时刻知道,并研究它。因此,在这种情况下,非参数引导非常方便。您无需承担太多,也可以从中简单地提取样本,然后研究其时刻和其他属性。

尽管非参数自举并不是一个神奇的工具,但它存在一些问题。例如,它可能会有偏差。我认为参数自举是无偏见的


1
我认为,即使您不知道真实分布,也很容易计算出很多时刻。因此,我认为问题不在于不知道要处理的发行类型。而是关于您要研究哪种统计信息。一些统计信息可能很难计算,只有这样引导才有用。
ztyh

就像在对USR11852的问题的评论中一样,实际上,我对统计的可计算性的好处也存有疑问……
ztyh

ln(x3+x)

1
xzf(x,z)x,z

1
fxzf(x,z)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.