包含不确定性的内核密度估计


12

可视化一维数据时,通常使用内核密度估计技术来考虑不正确选择的bin宽度。

当我的一维数据集具有测量不确定性时,是否有标准方法来合并此信息?

例如(如果我的理解是天真的,请原谅我)KDE将高斯分布与观测值的三角函数卷积。该高斯核在每个位置之间共享,但是可以改变高斯参数以匹配测量不确定度。有执行此操作的标准方法吗?我希望用宽内核反映不确定的值。σ

我只是在Python中实现了此功能,但我不知道执行此操作的标准方法或函数。这种技术有什么问题吗?我确实注意到它给出了一些奇怪的图形!例如

KDE比较

在这种情况下,低值具有较大的不确定性,因此倾向于提供较宽的平坦内核,而KDE会过重权重低(且不确定)的值。


您是说红色曲线是可变宽度的高斯,绿色曲线是它们的和?(从这些图表看,这看起来似乎不合理。)
Whuber

您知道每个观测值的测量误差是什么吗?
Aksakal 2014年

@whuber,红色曲线是宽度可变的高斯,蓝色曲线是它们的和。绿色曲线是宽度恒定的KDE,对于造成混淆的情况感到抱歉
Simon Walker

@Aksakal是的,每次测量都具有不同的不确定性
Simon Walker

附带问题,但这不是使用高斯内核的内核密度估计的定义。您可以使用任何想要集成为1的内核,尽管有些内核比其他内核更明智或更有用....
Nick Cox

Answers:


6

改变宽度是有意义的,但不必使内核宽度与不确定性匹配。

在处理观测值基本上没有不确定性的随机变量时,请考虑带宽的目的(即,您可以在其中观察到足够精确的距离)-即使如此,kde也不会使用零带宽,因为带宽与分布的可变性,而不是观测的不确定性(即“观测之间”的变化,而不是“观测中”的不确定性)。

本质上,您所拥有的是变化的额外来源(在“无观察不确定性”的情况下),每个观察都不同。

因此,第一步,我要说“如果数据不确定性为0,我将使用的最小带宽是多少?” 然后创建一个新带宽,该带宽是该带宽与您用于观测不确定性的平方和的平方根。σi

解决该问题的另一种方法是将每个观察结果视为一个小内核(如您所做的那样,它将表示该观察可能位于的位置),但将普通的(kde-)内核(通常为固定宽度,但是不必一定要使用观测不确定性内核,然后进行组合的密度估计。(我认为这实际上与我上面建议的结果相同。)


2

我将应用可变带宽内核密度估计器,例如,在知道测量误差分布的情况下,用于反卷积内核密度估计的本地带宽选择器将 尝试构建自适应窗口KDE。您说自己知道误差方差,因此该方法应适用于您的情况。这是另一篇关于受污染样品的类似方法的论文:从受污染样品中估算内核密度的自举带宽选择


您的第一个链接带我到ms.unimelb.edu.au,这不是本文。我认为您的意思是link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro

这些解决方案看起来很棒!您知道实现这些的代码吗?
阿迪·罗

@AdiRo,我修复了断开的链接。我没有代码
-Aksakal

0

您不妨参考David W. Scott,1992年,Wiley撰写的“多元密度估计:理论,实践和可视化”中的第6章。

对于单变量情况(pp 130-131),他导出了带宽选择的正常参考规则: 其中是沿维度的方差,是数据量,是带宽(您在问题中使用了,所以请不要在我的符号中混淆它)。σ Ñ ħ σ

h=(4/3)1/5σn1/5(6.17)
σnhσ

他使用的一般KDE表示法是: ,其中是内核函数。K

f^(x)=1nhi=1nK(xxih)
K()

0

实际上,我认为您提出的方法被称为在地球科学中广泛使用的概率密度图(PDP),请参见此处的论文:https : //www.sciencedirect.com/science/article/pii/S0009254112001878

但是,存在上述论文中提到的缺点。例如,如果测得的误差很小,那么最终得到的PDF中会有峰值。但是也可以像KDE一样平滑PDP,就像@ Glen_b♦提到的一样

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.