多重删失数据的协方差矩阵的无偏估计


22

环境样品的化学分析通常低于报告限值或各种检测/定量限值。后者通常可以与其他变量的值成比例地变化。例如,可能需要稀释一种化合物的高浓度样品进行分析,从而导致该样品中同时分析的所有其他化合物的检测限按比例膨胀。再举一个例子,有时化合物的存在会改变测试对其他化合物的响应(“基质干扰”)。当实验室检测到这种情况时,它将相应地提高其报告限值。

我正在寻找一种实用的方法来估算此类数据集的整个方差-协方差矩阵,尤其是当许多化合物经历了超过50%的检查时,这种情况经常发生。传统的分布模型是(真实)浓度的对数呈多态正态分布,这在实践中似乎很合适,因此针对这种情况的解决方案将很有用。

(“实用”是指一种方法,该方法可以在至少一个普遍可用的软件环境(例如R,Python,SAS等)中可靠地进行编码,并且其执行速度足以支持迭代的重新计算(例如多次插补),且这种情况相当稳定[这就是为什么我不愿探索BUGS实现的原因,尽管通常欢迎使用贝叶斯解决方案]。

预先非常感谢您对此事的想法。


正是这样,我才能正确理解检查问题:当您稀释样品时,化合物的浓度下降得很低,以至于测试仪器可能无法检测到它的存在。这是对审查问题的准确重述吗?

是的,这是正确的:D倍的稀释也会使D的所有检测限也增加D倍。(矩阵干扰问题更难以量化,一般情况非常复杂。为简化此过程,传统模型是对一个样本进行一系列测试得出一个向量(x [1],...,x [k ]),其中x [i]是实数或实数的间隔,通常其左端点在-infinity处;一个间隔标识一个假定真值位于其中的集合。)
whuber

为什么检出限会上升?它们不是测试仪器的功能,而不是被测试样品的功能吗?

例如,假设仪器的检出限为每升1微克(ug / L)。样品以10:1的比例稀释(精度很高,因此我们在这里不必担心误差),仪器读数为“ <1”;也就是说,对于稀释样品来说是不可检测的。实验室推断样品中的浓度小于10 * 1 = 10 ug / L,并按此报告。也就是说,为“ <10”。
ub

1
@amoeba我知道我应该在问题本身中解释这些内容。答案是:PCA;尺寸从3到几百不等;样本大小总是远远超过维数,但检查率可能很高(需要处理多达50%的数据,而希望处理多达95%的数据)。
ub

Answers:


3

我还没有完全内化矩阵干扰的问题,但这是一种方法。让:

是代表未稀释样品中所有目标化合物浓度的向量。ÿ

是稀释样品中的相应载体。ž

为稀释因子,即样品被 d 1:1稀释。dd

我们的模型是:

ÿñμΣ

ž=ÿd+ϵ

其中表示误差由于稀释误差。ϵñ0σ2 一世

因此,它遵循:

žñμdΣ+σ2 一世

žFž

Øτ一世ŤH

Ø一世=ž一世一世ž一世>τ+0一世ž一世τ

ķ

大号Ø1个ØķØķ+1个Øñ|-=[一世=1个一世=ķP[Rž一世τ][一世=ķ+1个一世=ñFØ一世|-]

哪里

FØ一世|-=Ĵ一世FžØ一世|-一世Ø一世>τ

估计则是使用最大似然或贝叶斯思想的问题。我不确定上述内容是否易于理解,但我希望它能给您一些想法。


非常感谢您的这个想法。确实,这是多重审查的一种标准且有据可查的方法。一个困难在于它的难处理性:众所周知,这些积分很难计算。这里也存在一个建模问题:正如我的描述的第一段所暗示的那样,d的值通常与Y正相关。
ub

2

另一种计算效率更高的选择是使用称为“二分高斯”的模型(实际上只是一个高斯copula模型)通过矩匹配来拟合协方差矩阵。

Macke等人2010年的最新论文描述了一种适合该模型的封闭式程序,该程序仅涉及(经审查)经验协方差矩阵和一些双变量正态概率的计算。同一小组(MPI Tuebingen的Bethge实验室)也描述了混合离散/连续高斯模型,这可能是您在这里想要的(即,由于高斯RV未完全“二分”,而是仅低于阈值)。

至关重要的是,这不是 ML估计器,而且恐怕我不知道它的偏差属性是什么。



1

您的样品中有多少种化合物?(或者,所讨论的协方差矩阵有多大?)。

Alan Genz在各种语言(R,Matlab,Fortran;请参阅此处)中都有一些非常不错的代码,用于计算超矩形上的多元法线密度的积分(即,评估似然性所需的各种积分,如所述)用户28)。

我已经使用了这些函数(“ ADAPT”和“ QSIMVN”)进行了大约10至12维的积分,并且该页面上的一些函数发布了积分(以及您可能需要的相关派生函数)以解决100维以下的问题。不知道这是否足够满足您的需求,但是如果可以,可能可以让您通过梯度上升来找到最大似然估计。


抱歉,我是新来的,没有注意到它发布多久了,可能来不及提供帮助了!
jpillow 2011年

@jp这是一个持续存在的重要问题,因此在问题和答案之间经过的时间影响不大。多谢您的回覆!
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.