“内核密度估计”是什么的卷积?


25

我试图更好地了解内核密度估计。

使用Wikipedia中的定义:https//en.wikipedia.org/wiki/Kernel_density_estimation#Definition

fh^(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih)

让我们以是一个矩形函数赋予如果是间和和否则,和(窗口大小)为1。1 x 0.5 0.5 0 小时K()1x0.50.50h

我知道密度是两个函数的卷积,但是我不确定我如何定义这两个函数。其中一个应该(可能)是数据的函数,对于R中的每个点,它告诉我们该位置有多少个数据点(大多数为)。而另一个函数可能应该是对内核函数的修改,并结合窗口大小。但是我不确定如何定义它。0

有什么建议么?

贝娄是一个R代码示例,(我怀疑)它复制了我上面定义的设置(两个高斯的混合物,),我希望在此上看到一个“证明”,证明要卷积的函数是我们怀疑的。n=100

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

在此处输入图片说明


3
您在地毯的底部有一些直觉。想象一下,从到每个值是一个具有相关权重的尖峰。现在,使用内核的形状和宽度涂抹每个尖峰,以便将尖峰变换为具有相同形状和宽度的高度,以使下面的面积为。添加结果,您将获得内核密度估计。 i = 1 n 1 / n 1 / nX一世i=1n1/n1/ñ
Nick Cox

嗨尼克,谢谢你的评论。在我已经获得的直觉上,这是将其正式转换为我很想知道的卷积形式:)(我很想现在通过Whuber的回答!)
Tal Galili

Answers:


27

对应于任何一批数据是其“经验密度函数”X=(x1,x2,,xn

FXX=1个ñ一世=1个ñδX-X一世

在此,是“广义函数”。尽管有这个名字,它根本不是一个函数:它是一个新的数学对象,只能在积分中使用。它的定义属性是,对于在附近连续的紧凑支持的任何函数,δG0

[RδXGXdX=G0

(名称包括“原子”或“点”度量和“ Dirac delta函数”。在以下计算中,此概念扩展为包括仅从一侧连续的函数。)δG

证明这种特征是观察到FX

-XFXÿdÿ=-X1个ñ一世=1个ñδÿ-X一世dÿ=1个ñ一世=1个ñ-Xδÿ-X一世dÿ=1个ñ一世=1个ñ[R一世ÿXδÿ-X一世dÿ=1个ñ一世=1个ñ一世X一世X=FXX

其中是通常的经验CDF,而是通常的特征函数(等于,其参数为true,否则为)。(I跳到从紧凑支持功能移动到过定义功能所需要的基本限制参数因为只需要为的范围内的值被定义,它是紧凑的,这是没有问题的。)FX一世1个0[R一世X

根据定义,给出与任何其他函数的卷积FXXķ

FXķX=[RFXX-ÿķÿdÿ=[R1个ñ一世=1个ñδX-ÿ-X一世ķÿdÿ=1个ñ一世=1个ñ[RδX-ÿ-X一世ķÿdÿ=1个ñ一世=1个ñķX一世-X

令(与对称核的相同-并且大多数核是对称的),我们得到了所要求的结果:Wikipedia公式是一个卷积。ķX=ķH-XķHX


1
在GIS网站gis.stackexchange.com/questions/14374/…上解释了二维情况(以通俗易懂的方式),并作了说明。
ub

1
尊敬的Whuber,我很高兴地阅读了您的答案!非常感谢您的解释和详细信息,您的答案(此答案以及您的其他答案)确实令人鼓舞。您的塔尔(Tal)
塔尔·加利里

1
@Jan您的理解不太正确。在有限的连续度量的意义上,没有经验的“密度”。数据的指标函数积分为零(无论您使用Lebesgue积分还是Riemann积分都没有区别)。通用函数根本不是一个函数:它是一个新的数学对象,只能在积分内使用。经验分布是一个数学对象的是,当对任何积函数集成返回的总和(在所有数据的值)X X δGX一世GX一世
胡言乱语

1
@whuber谢谢。句子广义函数δ根本不是一个函数:它是一个新的数学对象,只能在积分内使用。使其更清晰。一如既往。;)
Jan Vainer

1
@Jan谢谢您的帮助:我已将此想法纳入此答案。
胡言乱语
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.