Answers:
进行自举以获得比大样本理论所假定的更为稳健的采样分布图。引导时,实际上对您获取的“ bootsamples”数量没有限制;实际上,越多的引导样本就可以更好地近似于采样分布。通常使用引导样本,尽管这个数字并没有什么神奇的。此外,您无需对引导样本进行测试;您可以估算出抽样分布-直接使用它。这是一个算法:
此算法作为统计检验的逻辑从根本上类似于经典检验(例如t检验),但是您不假设数据或所得抽样分布具有任何特定分布。(例如,您没有假设正态性。)您所做的主要假设是,您的数据代表了您要采样的样本/要推广到的总体。也就是说,样本分布类似于总体分布。请注意,如果您的数据与您感兴趣的人群无关,那么您就走运了。
如果您不愿意假设正态性,则有些人会担心使用例如回归模型来确定斜率。但是,这种担心是错误的。高斯-马尔可夫定理告诉我们,估计值是无偏的(即,以真实值为中心),所以很好。缺乏正态性仅意味着真实采样分布可能与理论上的正采样分布不同,因此p值无效。引导过程为您提供了一种解决此问题的方法。
关于自举的另外两个问题:如果满足经典假设,则自举的效率(即,功率较小)比参数测试低。其次,当您在分布中心附近进行探索时,自举最有效:均值和中位数很好,四分位数不太好,最小或最大自举必然失败。关于第一点,您可能不需要根据自己的情况进行引导。关于第二点,引导坡度非常好。
在一次回归中做所有事情都很整齐,独立性的假设很重要。但这种方式计算点估计也不会需要不断的变化。试试这个R代码;
x <- rbinom(100, 1, 0.5)
z <- rnorm(100)
y <- rnorm(100)
coef(lm(y~x*z))
coef(lm(y~z, subset= x==1))[1] - coef(lm(y~z, subset= x==0))[1]
coef(lm(y~z, subset= x==1))[2] - coef(lm(y~z, subset= x==0))[2]
无论哪种方式,我们都得到相同的点估计。估计标准误差可能需要恒定的方差(具体取决于您使用的哪一个),但是此处考虑的引导过程不会使用估计的标准误差。