如何执行自举测试以比较两个样本的均值？

我有两个严重偏斜的样本，正在尝试使用自举比较t统计量的均值。

正确的做法是什么？

我正在使用的过程

当我知道原始数据或观察到的数据不是正态分布时，我会担心在最后一步中使用标准误差的适当性。

这是我的步骤：

引导程序-随机抽样替换（N = 1000）
为每个引导程序计算t统计量以创建t分布： $T (b) = \frac{({\bar{X}}_{b 1} - {\bar{X}}_{b 2}) - ({\bar{X}}_{1} - {\bar{X}}_{2})}{\sqrt{σ_{x b 1}^{2} / n + σ_{x b 2}^{2} / n}}$ $T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }}$
通过获取t分布的和百分位数来估计t置信区间 $\alpha/2$ $1-\alpha/2$
通过以下方式获取置信区间：

$C I_{L} = ({\bar{X}}_{1} - {\bar{X}}_{2}) - T_C I_{L} . S E_{o r i g i n a l}$ $CI_L = (\overline{X}_1-\overline{X}_2) - T\_{CI_L}.SE_{original}$ $C I_{U} = ({\bar{X}}_{1} - {\bar{X}}_{2}) + T_C I_{U} . S E_{o r i g i n a l}$ $CI_U = (\overline{X}_1-\overline{X}_2) + T\_{CI_U}.SE_{original}$ ，其中 $S E = \sqrt{σ_{X 1}^{2} / n + σ_{X 2}^{2} / n}$ $SE = \sqrt{ \sigma^2_{X1}/n + \sigma^2_{X2}/n }$
查看置信区间落在哪里，以确定均值是否存在显着差异（即非零）

我也查看了Wilcoxon秩和，但由于分布严重偏斜（例如，第75个== 95％），因此给出的结果并不十分合理。因此，我想进一步探讨自举t检验。

所以我的问题是：

hypothesis-testing t-test bootstrap

— 猫爱爵士
source

样本有多大？

— Michael M

@Michael Mayer大约800

— CatsLoveJazz 2014年

另请参阅stats.stackexchange.com/questions/189587

— 变形虫说莫妮卡（Monica）的

我只是进行常规的引导测试：

计算数据中的t统计量并将其存储
更改数据，以使原假设为真。在这种情况下，请减去组1中第1组的均值，然后加上总体均值，然后对组2进行相同的操作，这样，两组中的均值即为总体均值。
从该数据集中获取引导程序样本，大概数量为20,000。
计算每个自举样本中的t统计量。如果原假设为真，则这些t统计量的分布是对歪斜数据中t统计量的采样分布的引导估计。
自举t统计量大于或等于观察到的t统计量的比例是您对值的估计。通过查看大于或等于观察到的t统计量的引导t统计量除以引导程序样本数量），可以做得更好。但是，当引导程序样本数量很大时，差异将很小。 $p$ $($ $+1)$ $($ $+1)$

您可以在以下内容中了解更多信息：

— 马丁·布伊斯（Maarten Buis）
source

这本质上是Im所做的，但要查看原始/观察到的t统计量> =引导t统计量的时间比例。首先可以对严重偏斜的数据进行t检验吗？这就是我要加强处理的原因之一。

— CatsLoveJazz 2014年

从技术上讲，对于引导测试，您只需要一个测试统计信息就可以了。实质上，t检验比较均值，而在偏斜数据中，中位数通常比均值更有意义。因此，比较中位数而不是均值的测试可能更有意义。但是，这取决于您的原假设，这是您的选择，也是您自己的选择。

— Maarten Buis 2014年

好的，谢谢，这是我们要测试的意思，因为我们所有其他输出都采用这种形式。

— CatsLoveJazz 2014年