研究人员希望对多个数据集进行综合分析。在某些数据集中,有对A和B的观测值配对。在其他数据集中,有未配对的A和/或B数据。我正在寻找此类部分配对数据的t检验改编或似然比检验的参考。我愿意(现在)假设方差相等的正态性,并且每个研究的A总体均值是相同的(B均相同)。
研究人员希望对多个数据集进行综合分析。在某些数据集中,有对A和B的观测值配对。在其他数据集中,有未配对的A和/或B数据。我正在寻找此类部分配对数据的t检验改编或似然比检验的参考。我愿意(现在)假设方差相等的正态性,并且每个研究的A总体均值是相同的(B均相同)。
Answers:
Guo和Yuan建议从Samawi和Vogel的合并t检验衍生出另一种方法,称为最佳合并t检验。
参考链接:http : //citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf
在这种情况下,有多种选择的好书。
评论的新手,如果需要添加其他内容,请告诉我。
好吧,如果您知道未配对和配对中的方差(通常会小很多),则两组差值的最佳估计权重就是权重与个体方差成反比均值差异的估计。
[编辑:结果证明,当估计方差时,这称为Graybill-Deal估计器。上面有很多论文。这是一个]
需要估计方差会带来一些困难(方差估计的结果比率为F,我认为结果权重具有beta分布,并且结果统计有点复杂),但是由于您正在考虑引导,因此这可能是少担心。
在某种意义上可能更好(或至少对非正态性更强,因为我们正在使用方差比)的另一种可能性是,在法向效率极低的情况下,它是基于偏移的组合估计成对和不成对秩检验-在每种情况下都是一种Hodges-Lehmann估计,在不成对情况下基于成对交叉样本差的中位数,而在成对情况下则成对成对平均差值的中位数。再次,两者的最小方差加权线性组合将具有与方差的倒数成比例的权重。在那种情况下,我可能倾向于排列(/随机化)而不是引导程序-但是取决于实现引导程序的方式,它们可能会出现在同一位置。
在这两种情况下,您都可能希望稳定差异/缩小差异比率。获得合适的重量是好的做法,但是通过使其稍微坚固耐用,您将在正常情况下损失很少的效率。---
我之前还没有想到的其他一些想法:
这个问题与Behrens-Fisher问题有着明显的相似之处,但难度更大。
如果我们固定权重,我们就可以用Welch-Satterthwaite类型逼近。问题的结构是相同的。
我们的问题是我们要优化权重,这实际上意味着权重是不固定的-实际上,趋向于最大化统计量(至少在大型样本中至少近似且更接近,因为任何权重集都是估计相同权重的随机量分子,而我们正在努力使分母最小化;两者不是独立的)。
我希望这会使卡方逼近度变差,并且几乎肯定会进一步影响逼近度的df。
[如果这个问题是可行的,也可能会得出一个很好的经验法则,即'如果在这种情况下只使用成对的数据,而在其他情况下只使用不成对的数据,则几乎可以做到。在其他条件下,这种固定的重量方案通常非常接近最佳状态”,但我不会在这种机会上屏住呼吸。这样的决策规则无疑会在每种情况下都对真正的重要性产生一定的影响,但是如果这种影响没有那么大,那么这样的经验法则将为人们使用现有的旧版软件提供一种简便的方法,因此可能需要尝试为这种情况下的用户确定类似的规则。]
---
编辑:自我说明-需要回来填写“重叠样本”测试的工作细节,尤其是重叠样本t检验
---
在我看来,随机化测试应该可以-
在数据配对的位置,您随机排列成对的组标签
数据不成对但假定具有共同分布(在null下),则置换组分配
(稍后添加)
可能相关的论文:
Derrick,B.,Russ B.,Toher,D.和White,P.(2017年),
“比较包括配对和独立观察值的两个样本的均值比较的检验统计量” ,《
现代应用统计方法》,5月,卷 16号,第137-157页。
doi:10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm
这里有一些想法。我基本上只是得出格雷格·斯诺(Greg Snow)的结论,即该问题与贝伦斯·费舍尔(Behrens-Fisher)问题有着明显的相似之处。为了避免手忙脚乱,我首先介绍一些符号并形式化假设。
每个观察结果都是患者效果和治疗效果的总和。相应的随机变量是
下一步自然要考虑
在这一点上,我认为可以插入提出给Behrens Fisher问题的任何解决方案,以解决您的问题。
我的第一个想法是混合效果模型,但是已经讨论过了,因此在此不再赘述。
我的另一种想法是,如果理论上可以测量所有对象的配对数据,但是由于成本,错误或其他原因而导致您没有所有对,那么您可以对待未配对对象进行无法衡量的效果因为缺少数据并使用EM算法或多重插补等工具(随机丢失似乎是合理的,除非仅在一种治疗下测量受试者的原因与其在另一种治疗下的结果有关)。
使用最大似然(将似然比基于每个受试者的可用数据进行分解)来拟合数据的二元正态分布,甚至更简单,然后进行均值与不同均值比较分布的似然比检验。
自从我上理论课以来已经有很长时间了,所以我不知道它们在最优性方面的比较。
可能与患者混合建模,因为随机效果可能是一种方法。通过混合建模,可以考虑配对情况下的相关结构和非配对情况下的部分缺失。
gls
在功能nlme4
包。