应将多少数量加到x上,以避免取零的对数?


57

我已经分析了我的数据。现在,我想在记录所有变量后查看分析。许多变量包含许多零。因此,我添加少量以避免对数为零。

到目前为止,我确实没有任何理由就添加了10 ^ -10,只是因为我觉得建议添加一个很小的数量以最小化我任意选择的数量的影响。但是某些变量大多包含零,因此在记录时大多数为-23.02。我的变量的范围是1.33-8819.21,零频率也有很大变化。因此,我个人选择的“少量”对变量的影响非常不同。现在很明显,10 ^ -10是完全不可接受的选择,因为所有变量中的大多数方差都来自这个任意的“小数量”。

我想知道什么是更正确的方法。

也许最好从每个变量的单独分布中得出数量?是否有关于“小数量”应该有多大的准则?

我的分析大部分是简单的Cox模型,每个变量和年龄/性别为IV。变量是各种血脂的浓度,通常具有相当大的变异系数。

编辑:添加变量的最小非零值似乎对我的数据很实用。但是也许有一个通用的解决方案?

编辑2:由于零仅表示浓度低于检测极限,也许将它们设置为(检测极限)/ 2是合适的吗?


4
为什么要观察值/变量的?log

2
如果将加到变量中,则在原始量表上为零的变量在对数标度上将为零。1
MånsT

5
您是否对响应变量或只是解释变量有这个问题?如果只有后者,则根据样本量的考虑,一个选择可能是添加其他虚拟变量,以指示给定分析物的浓度低于检测阈值。这样可以吸收自由度,但是具有不对数据施加任意即席选择的优点。它还可能会发现接近检测阈值的非线性或不连续性,否则可能会导致这种情况。
主教

2
@Procrastinator对数刻度对于浓度来说是很自然的,因为平衡常数和吉布斯能量之间呈指数关系。实际上,在“连续”化学中,0浓度有些不真实。

2
替代方法是采用数据的多维数据集根-不会一直带到日志,而是保留零而不进行重定标。
jbowman 2012年

Answers:


26

由于零仅表示浓度低于检测极限,因此将其设置为(检测极限)/ 2是适当的

我只是在键入,我想到的是日志确实(经常)有意义的事情,并且当您进行第二次编辑时可能会出现0。就像您说的那样,对于测得的浓度,0仅仅表示“我无法测量出这么低的浓度”。

旁注:您是说LOQ而不是LOD?

将0设置为 LOQ是否是一个好主意,取决于:12

  • 从是您的“猜测”来表达c表示介于0和LOQ之间的任何角度,这确实是有道理的。 但是请考虑相应的校准功能: 在左侧,校准功能在LOQ之下产生c = 0。在右侧,使用代替0。12LOQ1

    在此处输入图片说明在此处输入图片说明
    12LOQ

  • 但是,如果原始测量值可用,则可能会提供更好的猜测。毕竟,LOQ通常仅表示相对误差为10%。在此之下,测量仍携带信息,但相对误差变得巨大。
    在此处输入图片说明
    (蓝色:LOD,红色:LOQ)

  • 另一种选择是排除这些测量。这也可能是合理的,
    例如考虑校准曲线。在实践中,您通常会观察到一个S形:对于低c值,信号≈常数,中间线性行为,然后是检测器饱和。 在此处输入图片说明
    在这种情况下,您可能希望将自己的陈述限制在明显处于线性范围内的浓度,因为其他过程的上,下均会严重影响结果。
    确保您说明选择数据的方式以及原因。


编辑:什么是明智的还是可以接受的,当然取决于问题。希望我们在这里谈论的是不影响分析的一小部分数据。

也许快速而又肮脏的检查是:在进行数据分析时是否排除数据(或您建议的任何处理方法),并检查是否有任何实质性变化。

如果您看到更改,那么您当然会遇到麻烦。但是,从分析化学的角度来看,我想说您的麻烦并不主要在于您使用哪种方法处理数据,而是潜在的问题是分析方法(或其工作范围)不适用于眼前的问题。当然,在某个区域中,更好的统计方法可以节省您的时间,但最终,对于更高级的方法来说,近似“垃圾进,垃圾出”通常也成立。

主题语录:

  • 一位统计学家曾经告诉我:

    您(化学家/光谱学家)遇到的问题是,您的问题要么太难以至于无法解决,要么就很容易以至于解决起来毫无乐趣。

  • 费舍尔关于实验的统计验尸


1
我喜欢底部的引号(+1)。
恢复莫妮卡

32

化学浓度数据通常为零,但它们并不代表零值:它们是各种(且令人困惑)代表未检测到(测量值很可能表明不存在分析物)和“未量化”的代码。值(测量检测到分析物,但无法产生可靠的数值)。让我们在这里隐约地称这些“ ND”。

通常,与ND相关的限值被称为“检测限值”,“定量限值”或(更确切地说是“报告限值”),因为实验室选择不提供数值(通常是合法的原因)。关于ND,我们真正知道的是,真实值可能小于关联的限制:它几乎是(但不是完全)一种左审查形式1.3301.330.50.1

在过去的30多年中,已经进行了广泛的研究,涉及如何最好地总结和评估此类数据集。丹尼斯·海瑟尔(Dennis Helsel)出版了有关此书的《非检测和数据分析》(Wiley,2005年),教授了一门课程,并R根据他偏爱的一些技术发布了一个软件包。他的网站很全面。

这个领域充满了错误和误解。Helsel对此很坦率:他在他的书的第一章的第一页写道,

……当今环境研究中最常用的方法,即检测限的一半取代,并不是解释检查数据的合理方法。

那么该怎么办? 选项包括忽略此良好建议,应用Helsel书中的某些方法以及使用其他方法。是的,这本书并不全面,确实存在有效的替代方法。将常量添加到数据集中的所有值(“开始”它们)是一个。但是请考虑:

  • 111

  • 0

    对数概率图是确定起始值的出色工具:除ND外,数据应近似线性。

  • ND的集合也可以用所谓的“对数正态分布”来描述。这是点质量和对数法线的混合。

从下面的模拟值直方图中可以明显看出,删失分布和增量分布是不同的。 增量方法对于回归中的解释变量最有用:您可以创建一个“虚拟”变量来指示ND,获取检测值的对数(或根据需要对其进行变换),而不必担心ND的替换值。

直方图

在这些直方图中,最低值的大约20%已被零代替。为了可比性,它们均基于相同的1000个模拟基础对数正态值(左上)。通过将200个值随机替换为零来创建增量分布。通过将200个最小值替换为零来创建受检查的分布。“现实的”分布符合我的经验,即报告的限制实际上在实践中有所变化(即使实验室未指明!):我使它们随机变化(仅差一点,很少超过30英寸)。任一方向),并将所有小于其报告限制的模拟值都替换为零。

为了显示概率图的效用并解释其解释,下图显示了与先前数据的对数有关的正态概率图。

概率图

log(1+0)=0)绘制得太低。左下方是被检查数据集的概率图,其起始值为120,接近典型的报告限制。左下角的拟合现在很不错-我们只希望所有这些值都位于拟合线的附近,但在右边-但是上尾的曲率表明加120开始改变形状的分布。右下角显示了对数正态数据的变化:上尾部非常吻合,但在报告极限附近(曲线的中间)有些曲率。

最后,让我们探索一些更现实的场景:

概率图2

左上方显示被检查的数据集,其中零设置为报告限制的一半。非常合适。右上方是更实际的数据集(报告限制随机变化)。起始值1并没有帮助,但是-在左下方-对于起始值120(接近报告限制的上限),拟合度很好。有趣的是,当点从NDs上升到量化值时,靠近中间的曲率使人想起了对数正态分布(即使这些数据不是从这种混合中生成的)。右下方是当实际数据的ND替换为(典型)报告限制的一半时获得的概率图。 这是最合适的 即使它在中间显示出一些类似于对数正态的行为。

然后,您应该做的是使用概率图来探索分布,因为使用了各种常数来代替ND。标称,平均值和报告限值的一半开始搜索,然后从该值上下更改。选择一个看起来像右下角的图:量化值大致为对角直线,快速下降到较低的平稳段,并且平稳地(几乎)满足对角线扩展的值的稳定段。但是,按照Helsel的建议(在文献中得到大力支持),对于实际的统计摘要,应避免使用任何用任何常数替换ND的方法。 为了进行回归,请考虑添加一个虚拟变量以指示ND。对于某些图形显示,用概率图练习找到的值不断替换ND效果很好。对于其他图形显示,描述实际的报告限制可能很重要,因此请用其报告限制替换ND。您需要保持灵活性!


1
答案非常好!我完全同意。当您查看数据并意识到在将数据“照常转换”之前,已经有了一个非常有用的数据集,我对此很熟悉……
cbeleites 2012年

1
变化的极限:存在几种不同的方法来计算LOD(检测极限->用于定性答案)和LOQ(定量极限,用于定量测量)。我猜一个实验室通常不会改变这些方法的计算方法(对于相同的分析方法)。但是,每次执行计算时都会重新计算这些值。如果该方法需要在每个工作日进行校准,则每天会有一个(略有不同)限制。
cbeleites 2012年

1
限制和不提供低数字的法律原因法律原因不会禁止提供(附加的)更多详细信息,例如原始信号,相应的浓度和置信区间/测量的判断(例如“低于最低定量限”)。另外,您可以向分析实验室索要校准曲线。我希望您必须为此付费,因为这是额外的工作,但我希望这是可能的。较便宜的折衷方案可能是它们将全部原始数据提供给您,而将数据分析留给您。如果他们知道您是统计学家/化学计量师/分析化学家/ ...,这可能会有所帮助
cbeleites 2012年

1
在我的工作中,我们经常会遇到零,因为数据是四舍五入的。在这样的情况下,这些被分组数据,参见stats.stackexchange.com/questions/26950/...
斯特凡劳伦

2
有一个完整的领域,即“化学计量学”,专门用于该主题和相关主题,并且整本著作(并且将继续编写)仅涉及“检测极限”。我遇到了20多个不同的定义!重新表达变量(例如取对数)的问题也是数据分析和数据探索中的关键问题。许多书籍(尤其是有关探索性数据分析的书籍)中的很大一部分都集中在该问题上。
ub


3

ithmean(xi)n×stddev(xi)n

请注意,任何此类人为设置都会影响您的分析,因此您在解释时应格外小心,在某些情况下请舍弃这些情况以避免伪影。

使用检测极限也是一个合理的想法。


3

为了阐明如何处理回归模型中的零对数,我们编写了一份教学论文,解释了最佳解决方案和人们在实践中常犯的错误。我们还提出了解决该问题的新解决方案。

您可以通过单击此处找到本文:https : //ssrn.com/abstract=3444996

log(y)=βlog(x)+εβyx

YY+c>0

在我们的文章中,我们实际上提供了一个示例,其中添加非常小的常数实际上提供了最大的偏差。我们提供派生偏见的表达。

实际上,泊松伪最大似然(PPML)可以被视为解决此问题的好方法。必须考虑以下过程:

yi=aiexp(α+xiβ)E(ai|xi)=1

βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

yi=0

β

log(yi+exp(α+xiβ))=xiβ+ηi

我们证明了该估计量是无偏的,并且可以使用GMM和任何标准统计软件简单地对其进行估计。例如,可以通过仅使用Stata执行一行代码来进行估算。

希望本文能对您有所帮助,我们希望能收到您的反馈。

ChristopheBellégo和Louis-Daniel Pape,CREST-理工学院-ENSAE

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.