如何执行自举测试以比较两个样本的均值?


12

我有两个严重偏斜的样本,正在尝试使用自举比较t统计量的均值。

正确的做法是什么?


我正在使用的过程

当我知道原始数据或观察到的数据不是正态分布时,我会担心在最后一步中使用标准误差的适当性。

这是我的步骤:

  • 引导程序-随机抽样替换(N = 1000)
  • 为每个引导程序计算t统计量以创建t分布:
    T(b)=(X¯b1X¯b2)(X¯1X¯2)σxb12/n+σxb22/n
  • 通过获取t分布的和百分位数来估计t置信区间α/21α/2
  • 通过以下方式获取置信区间:

    CIL=(X¯1X¯2)T_CIL.SEoriginal
    CIU=(X¯1X¯2)+T_CIU.SEoriginal
    ,其中
    SE=σX12/n+σX22/n
  • 查看置信区间落在哪里,以确定均值是否存在显着差异(即非零)

我也查看了Wilcoxon秩和,但由于分布严重偏斜(例如,第75个== 95%),因此给出的结果并不十分合理。因此,我想进一步探讨自举t检验。

所以我的问题是:

  1. 这是合适的方法吗?
  2. 当我知道观测到的数据严重偏斜时,使用SE合适吗?

可能重复:首选哪种方法,引导测试或非参数基于等级的测试?


样本有多大?
Michael M

@Michael Mayer大约800
CatsLoveJazz 2014年

Answers:


16

我只是进行常规的引导测试:

  • 计算数据中的t统计量并将其存储
  • 更改数据,以使原假设为真。在这种情况下,请减去组1中第1组的均值,然后加上总体均值,然后对组2进行相同的操作,这样,两组中的均值即为总体均值。
  • 从该数据集中获取引导程序样本,大概数量为20,000。
  • 计算每个自举样本中的t统计量。如果原假设为真,则这些t统计量的分布是对歪斜数据中t统计量的采样分布的引导估计。
  • 自举t统计量大于或等于观察到的t统计量的比例是您对值的估计。通过查看大于或等于观察到的t统计量的引导t统计量除以引导程序样本数量),可以做得更好。但是,当引导程序样本数量很大时,差异将很小。p(+1)(+1)

您可以在以下内容中了解更多信息:

  • AC Davison和DV Hinkley(1997)引导方法及其应用的第4章。剑桥:剑桥大学出版社。

  • Bradley Efron和Robert J. Tibshirani(1993)第16章。博卡拉顿:Chapman&Hall / CRC。

  • 有关引导假设检验的维基百科条目。


这本质上是Im所做的,但要查看原始/观察到的t统计量> =引导t统计量的时间比例。首先可以对严重偏斜的数据进行t检验吗?这就是我要加强处理的原因之一。
CatsLoveJazz 2014年

2
从技术上讲,对于引导测试,您只需要一个测试统计信息就可以了。实质上,t检验比较均值,而在偏斜数据中,中位数通常比均值更有意义。因此,比较中位数而不是均值的测试可能更有意义。但是,这取决于您的原假设,这是您的选择,也是您自己的选择。
Maarten Buis 2014年

好的,谢谢,这是我们要测试的意思,因为我们所有其他输出都采用这种形式。
CatsLoveJazz 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.