我有一个数据集,其中包含来自约2500个个体的约7,500个血液测试。我试图找出血液测试的变异性是随着两次测试之间的时间而增加还是减少。例如-我抽取您的血液进行基线测试,然后立即抽取第二个样品。六个月后,我画了另一个样本。人们可能期望基线和立即重复测试之间的差异小于基线和六个月测试之间的差异。
下图上的每个点反映了两次测试之间的差异。X是两次测试之间的天数;Y是两个测试之间差异的大小。如您所见,测试并非沿X均匀分布-这项研究并非旨在解决这个问题。由于这些点的平均高度重叠,因此基于28天的窗口,我包括了95%(蓝色)和99%(红色)的分位数线。这些显然被更极端的因素所牵制,但您明白了。
替代文字http://a.imageshack.us/img175/6595/diffsbydays.png
在我看来,可变性相当稳定。如果有的话,在短时间内重复进行测试会更高-这是违反直觉的。我该如何系统地解决这个问题,并考虑每个时间点的n值变化(某些时期根本没有测试)?非常感谢您的想法。
仅供参考,这是测试与重新测试之间的天数分布:
替代文字http://a.imageshack.us/img697/6572/testsateachtimepoint.png