对部分配对和部分未配对的数据进行t检验


28

研究人员希望对多个数据集进行综合分析。在某些数据集中,有对A和B的观测值配对。在其他数据集中,有未配对的A和/或B数据。我正在寻找此类部分配对数据的t检验改编或似然比检验的参考。我愿意(现在)假设方差相等的正态性,并且每个研究的A总体均值是相同的(B均相同)。


2
嗨,弗兰克。使建模假设更明确可能会有所帮助。通常,当我想到成对的设计时,我想到以下一种方案:(i)试图消除固定的不可观察的单元级效应,(ii)减小实验单元间随机效应的变异性,或(iii)调整非正态性通过获取两对之间的差异来确定响应,从而获得更好的近似值。特别是,如果在null下的假设是所有观察结果都是正常的,那么我不会立即在匹配对中看到任何好处。
主教2012年

4
红衣主教,实际上我也有很多类似的数据。我们试图收集完全配对的数据,但是由于技术问题或运气不好,有时会破坏A或B条件下的某些样本测量结果。两种明显但不令人满意的解决方案是:1)丢弃所有不完整的对并进行配对t检验,或2)忽略配对并对所有数据进行未配对的t检验。我认为发布者正在寻求一种方法来利用存在的配对(出于您的原因#1和#2),同时从其他未配对的数据点中挽救他的能力。
Matt Krause 2012年

2
我感谢所有评论。对于匹配的对,在A和B下都对受试者进行了测试。一种利用配对的方法是对A和B中的均值之差使用bootstrap非参数百分比置信区间。这将涉及使用簇bootstrap,从科目。没有配对数据的受试者将在重新采样中保留或删除一个观察值,而配对数据将保留或删除两个记录。这似乎尊重配对,但是需要定义一个估计,而我们不知道最优性。
Frank Harrell'4

1
贝叶斯方法很容易实现。
斯特凡洛朗

2
Hani M. Samawi和Robert Vogel,《应用统计》(2013年):关于部分相关(配对)数据的两个样本测试的注释,dx.doi.org / 10.1080 / 02664763.2013.830285
Suresh

Answers:



8

好吧,如果您知道未配对和配对中的方差(通常会小很多),则两组差值的最佳估计权重就是权重与个体方差成反比均值差异的估计。

[编辑:结果证明,当估计方差时,这称为Graybill-Deal估计器。上面有很多论文。是一个]

需要估计方差会带来一些困难(方差估计的结果比率为F,我认为结果权重具有beta分布,并且结果统计有点复杂),但是由于您正在考虑引导,因此这可能是少担心。

在某种意义上可能更好(或至少对非正态性更强,因为我们正在使用方差比)的另一种可能性是,在法向效率极低的情况下,它是基于偏移的组合估计成对和不成对秩检验-在每种情况下都是一种Hodges-Lehmann估计,在不成对情况下基于成对交叉样本差的中位数,而在成对情况下则成对成对平均差值的中位数。再次,两者的最小方差加权线性组合将具有与方差的倒数成比例的权重。在那种情况下,我可能倾向于排列(/随机化)而不是引导程序-但是取决于实现引导程序的方式,它们可能会出现在同一位置。

在这两种情况下,您都可能希望稳定差异/缩小差异比率。获得合适的重量是好的做法,但是通过使其稍微坚固耐用,您将在正常情况下损失很少的效率。---

我之前还没有想到的其他一些想法:

这个问题与Behrens-Fisher问题有着明显的相似之处,但难度更大。

如果我们固定权重,我们就可以用Welch-Satterthwaite类型逼近。问题的结构是相同的。

我们的问题是我们要优化权重,这实际上意味着权重是不固定的-实际上,趋向于最大化统计量(至少在大型样本中至少近似且更接近,因为任何权重集都是估计相同权重的随机量分子,而我们正在努力使分母最小化;两者不是独立的)。

我希望这会使卡方逼近度变差,并且几乎肯定会进一步影响逼近度的df。

[如果这个问题是可行的,也可能会得出一个很好的经验法则,即'如果在这种情况下只使用成对的数据,而在其他情况下只使用不成对的数据,则几乎可以做到。在其他条件下,这种固定的重量方案通常非常接近最佳状态”,但我不会在这种机会上屏住呼吸。这样的决策规则无疑会在每种情况下都对真正的重要性产生一定的影响,但是如果这种影响没有那么大,那么这样的经验法则将为人们使用现有的旧版软件提供一种简便的方法,因此可能需要尝试为这种情况下的用户确定类似的规则。]

---

编辑:自我说明-需要回来填写“重叠样本”测试的工作细节,尤其是重叠样本t检验

---

在我看来,随机化测试应该可以-

  • 在数据配对的位置,您随机排列成对的组标签

  • 数据不成对但假定具有共同分布(在null下),则置换组分配

  • w1=1/(1+v1v2)


(稍后添加)

可能相关的论文:

Derrick,B.,Russ B.,Toher,D.和White,P.(2017年),
“比较包括配对和独立观察值的两个样本的均值比较的检验统计量” ,《
现代应用统计方法》,5月,卷 16号,第137-157页。
doi:10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm


1
+1。我对您答案的最后部分有疑问。您将在置换测试中使用哪些方差估计值(即权重)(在实际样本上计算出的是实际的权重估计值),或者您将基于来自该置换的数据计算每个置换的权重?
变形虫说莫妮卡(Reonica)

@amoeba可以正确说明您要基于该特定排列进行计算的基于样本的性质。
Glen_b-恢复莫妮卡

@amoeba我应该将其与其他解决问题的方法进行比较。
Glen_b-恢复莫妮卡

1
顺便说一下,我遇到了这个问题,因为有人向我提供了以下数据:两个具有配对数据的受试者加上两个具有不配对数据的受试者(即A组中的3个测量值,B组中的3个测量值,这6个值中的2+ 2已配对,其余未配对)。在这种情况下,没有足够的数据来估计未配对的班次估计的方差,因此除了忽略配对和进行未配对的测试外,我无法提出其他任何建议……但这当然是一种极端的情况。
变形虫说恢复莫妮卡

6

这里有一些想法。我基本上只是得出格雷格·斯诺(Greg Snow)的结论,即该问题与贝伦斯·费舍尔(Behrens-Fisher)问题有着明显的相似之处。为了避免手忙脚乱,我首先介绍一些符号并形式化假设。

  • nxipAxipBi=1,,n
  • nAnBxiAi=1,,nAxiBi=1,,nB
  • 每个观察结果都是患者效果和治疗效果的总和。相应的随机变量是

    • XipA=Pi+TiAXipB=Pi+TiB
    • XiA=Qi+UiAXiB=Ri+ViB

    Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • μA=μB

Xi=XipAXipBXiN(μAμB,2σ2)

XinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

下一步自然要考虑

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

σ2n1σP2+σ2nA1nB1(1nA+1nB)(σP2+σ2)nA+nB2Y

在这一点上,我认为可以插入提出给Behrens Fisher问题的任何解决方案,以解决您的问题。


1
我在公式中修正了一些错字。请检查!
kjetil b halvorsen

5

我的第一个想法是混合效果模型,但是已经讨论过了,因此在此不再赘述。

我的另一种想法是,如果理论上可以测量所有对象的配对数据,但是由于成本,错误或其他原因而导致您没有所有对,那么您可以对待未配对对象进行无法衡量的效果因为缺少数据并使用EM算法或多重插补等工具(随机丢失似乎是合理的,除非仅在一种治疗下测量受试者的原因与其在另一种治疗下的结果有关)。

使用最大似然(将似然比基于每个受试者的可用数据进行分解)来拟合数据的二元正态分布,甚至更简单,然后进行均值与不同均值比较分布的似然比检验。

自从我上理论课以来已经有很长时间了,所以我不知道它们在最优性方面的比较。


1
谢谢格雷格。我倾向于定制的最大似然方法。
Frank Harrell 2012年

4

可能与患者混合建模,因为随机效果可能是一种方法。通过混合建模,可以考虑配对情况下的相关结构和非配对情况下的部分缺失。


2
由于单独分析这些数据集都不会导致使用随机效应,因此我不明白为什么随机效应在这里会有所帮助。但是有可能使用广义最小二乘法来使每个主体具有自己的相关结构。未配对的观测值的相关性为零。值得思考。谢谢。
Frank Harrell'4

是的,您是对的,如果单独使用数据集,则不需要混合建模。但是,如果将它们附加到单个数据集中,则可以使用此方法将相关性合并到配对数据中,并通过指定零相关性同时使用未配对的数据。
psj 2012年

1
是; 我的观点是,混合模式可以是如矫枉过正则可以使用广义最小二乘(使用例如,R的容易指定主题变相关结构gls在功能nlme4包。
弗兰克勒尔

3

Hani M.Samawi&Robert Vogel(Journal of Applied Statistics,2013)中提出的一种方法是将独立样本和相关样本的T分数加权组合,以使新的T分数等于

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

Dγγ


1
T0
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.