化学浓度数据通常为零,但它们并不代表零值:它们是各种(且令人困惑)代表未检测到(测量值很可能表明不存在分析物)和“未量化”的代码。值(测量检测到分析物,但无法产生可靠的数值)。让我们在这里隐约地称这些“ ND”。
通常,与ND相关的限值被称为“检测限值”,“定量限值”或(更确切地说是“报告限值”),因为实验室选择不提供数值(通常是合法的原因)。关于ND,我们真正知道的是,真实值可能小于关联的限制:它几乎是(但不是完全)一种左审查形式1.3301.330.50.1
在过去的30多年中,已经进行了广泛的研究,涉及如何最好地总结和评估此类数据集。丹尼斯·海瑟尔(Dennis Helsel)出版了有关此书的《非检测和数据分析》(Wiley,2005年),教授了一门课程,并R
根据他偏爱的一些技术发布了一个软件包。他的网站很全面。
这个领域充满了错误和误解。Helsel对此很坦率:他在他的书的第一章的第一页写道,
……当今环境研究中最常用的方法,即检测限的一半取代,并不是解释检查数据的合理方法。
那么该怎么办? 选项包括忽略此良好建议,应用Helsel书中的某些方法以及使用其他方法。是的,这本书并不全面,确实存在有效的替代方法。将常量添加到数据集中的所有值(“开始”它们)是一个。但是请考虑:
从下面的模拟值直方图中可以明显看出,删失分布和增量分布是不同的。 增量方法对于回归中的解释变量最有用:您可以创建一个“虚拟”变量来指示ND,获取检测值的对数(或根据需要对其进行变换),而不必担心ND的替换值。
在这些直方图中,最低值的大约20%已被零代替。为了可比性,它们均基于相同的1000个模拟基础对数正态值(左上)。通过将200个值随机替换为零来创建增量分布。通过将200个最小值替换为零来创建受检查的分布。“现实的”分布符合我的经验,即报告的限制实际上在实践中有所变化(即使实验室未指明!):我使它们随机变化(仅差一点,很少超过30英寸)。任一方向),并将所有小于其报告限制的模拟值都替换为零。
为了显示概率图的效用并解释其解释,下图显示了与先前数据的对数有关的正态概率图。
log(1+0)=0)绘制得太低。左下方是被检查数据集的概率图,其起始值为120,接近典型的报告限制。左下角的拟合现在很不错-我们只希望所有这些值都位于拟合线的附近,但在右边-但是上尾的曲率表明加120开始改变形状的分布。右下角显示了对数正态数据的变化:上尾部非常吻合,但在报告极限附近(曲线的中间)有些曲率。
最后,让我们探索一些更现实的场景:
左上方显示被检查的数据集,其中零设置为报告限制的一半。非常合适。右上方是更实际的数据集(报告限制随机变化)。起始值1并没有帮助,但是-在左下方-对于起始值120(接近报告限制的上限),拟合度很好。有趣的是,当点从NDs上升到量化值时,靠近中间的曲率使人想起了对数正态分布(即使这些数据不是从这种混合中生成的)。右下方是当实际数据的ND替换为(典型)报告限制的一半时获得的概率图。 这是最合适的 即使它在中间显示出一些类似于对数正态的行为。
然后,您应该做的是使用概率图来探索分布,因为使用了各种常数来代替ND。 从标称,平均值和报告限值的一半开始搜索,然后从该值上下更改。选择一个看起来像右下角的图:量化值大致为对角直线,快速下降到较低的平稳段,并且平稳地(几乎)满足对角线扩展的值的稳定段。但是,按照Helsel的建议(在文献中得到大力支持),对于实际的统计摘要,应避免使用任何用任何常数替换ND的方法。 为了进行回归,请考虑添加一个虚拟变量以指示ND。对于某些图形显示,用概率图练习找到的值不断替换ND效果很好。对于其他图形显示,描述实际的报告限制可能很重要,因此请用其报告限制替换ND。您需要保持灵活性!