如果您所做的只是从经验分布中重新采样,为什么不仅仅研究经验分布呢?例如,为什么不仅仅通过经验分布来量化变异性,而不是通过重复采样研究变异性?
如果您所做的只是从经验分布中重新采样,为什么不仅仅研究经验分布呢?例如,为什么不仅仅通过经验分布来量化变异性,而不是通过重复采样研究变异性?
Answers:
自举(或其他重采样)是一种实验方法,用于估算统计信息的分布。
这是一种非常简单明了的方法(它意味着您可以使用样本数据的许多随机变量进行计算,以便获得所需的统计分布)。
当“理论/分析”表达式太难于获取/计算时(或者像阿克萨卡尔所说,有时它们是未知的),您最有可能使用它。
示例1:如果您进行pca分析,并希望将结果与“特征值偏差的估计值” 进行比较,则前提是变量之间没有相关性。
您可以对数据进行多次加密,然后重新计算pca特征值,以便获得特征值的分布(基于带有样本数据的随机测试)。
请注意,当前的做法是注视着卵石图,并运用经验法则来“确定”某个特征值是否重要/重要。
示例2:您进行了非线性回归 y〜f(x),从而为函数f提供了一堆参数估计值。 现在,您想知道这些参数的标准误差。
像OLS中一样,这里不可能简单地看一下残差和线性代数。但是,一种简单的方法是对残差/误差重新加扰多次计算相同的回归,以便了解参数如何变化(假定误差项的分布可以通过观察到的残差建模)。
如果您确切知道底层分布是什么,则无需研究它。有时,在自然科学中,您确切地知道分布。
如果您知道分布的类型,则只需要估计其参数,并按照您的意思进行研究即可。例如,有时您会先验地知道基础分布是正态的。在某些情况下,您甚至知道它的意思。因此,对于正常情况,唯一剩下的就是标准偏差。从样本中获得样本标准差,瞧,就可以得到分布进行研究。
如果您不知道分布是什么,但是认为它是列表中的几个分布之一,则可以尝试将这些分布适合数据,然后选择最合适的分布。然后,您研究该分布。
最后,通常您不知道要处理的发行类型。而且您没有理由相信它属于R可以适合您数据的20个分布之一。你会怎样做?好的,您查看平均值和标准偏差,很好。但是如果它歪斜了怎么办?如果峰度很大,该怎么办?等等。你真的需要知道分配给所有的时刻知道,并研究它。因此,在这种情况下,非参数引导非常方便。您无需承担太多,也可以从中简单地提取样本,然后研究其时刻和其他属性。
尽管非参数自举并不是一个神奇的工具,但它存在一些问题。例如,它可能会有偏差。我认为参数自举是无偏见的