您能用外行的术语解释Parzen窗口(内核)密度估计吗?


24

Parzen窗口密度估计被描述为

p(x)=1ni=1n1h2ϕ(xixh)

其中n是在向量元素的数目,是一个向量,被的概率密度,是Parzen窗的尺寸,和是窗口函数。xp(x)xhϕ

我的问题是:

  1. Parzen窗口函数和其他密度函数(例如高斯函数)之间的基本区别是什么?

  2. 窗口函数()在查找的密度中的作用是什么?ϕx

  3. 为什么我们可以插入其他密度函数来代替窗口函数?

  4. 在求密度中的作用是什么?hx

Answers:


44

Parzen窗口密度估计内核密度估计的另一个名称。这是一种从数据估计连续密度函数的非参数方法。

想象一下,您有一些数据点x1,,xn来自共同的未知(大概是连续的)分布f。您有兴趣估算给定数据的分布。您可以做的一件事就是简单地查看经验分布并将其视为等效于真实分布的样本。但是,如果您的数据是连续的,那么很可能会看到每个xi点在数据集中仅出现一次,因此基于此,您可以得出结论,由于每个值具有相等的概率,因此数据来自均匀分布。希望您可以做得更好:您可以将数据打包在一定数量的等距间隔中,并对每个间隔中的值进行计数。该方法将基于估计直方图。不幸的是,使用直方图,您最终会得到一定数量的bin,而不是连续分布,因此这只是一个粗略的近似值。

内核密度估计是第三种选择。主要思想是,您通过连续分布K混合体(使用符号ϕ)近似f,即内核,其中心位于x i个数据点,并且标度(带宽)等于hKϕxih

fh^(x)=1nhi=1nK(xxih)

这在下面的图片中进行了说明,其中给定七个数据点(由图顶部的彩色线标记),正态分布用作内核K,带宽h不同值用于估计分布。绘图上的彩色密度是位于xi点中心的核。请注意,h是一个相对参数,始终根据您的数据选择其值,并且对于不同的数据集,相同的h值可能不会给出相似的结果。

在相同数据上估算出四个内核密度

内核K可以看作是概率密度函数,它需要整合为一。它也必须是对称的,以使K(x)=K(x),然后以0为中心。维基百科有关内核的文章列出了许多流行的内核,例如高斯(正态分布),Epanechnikov,矩形(均匀分布)等。基本上,满足这些要求的任何分布都可以用作内核。

显然,最终估计将取决于您选择的内核(但不是那么多)以及带宽参数h。以下线程 如何在内核密度估计中解释带宽值?详细描述带宽参数的用法。

用简单的英语说,您在这里假设的是观测点xi只是一个样本,并且遵循一些估计的分布f。由于分布是连续的,因此我们假设在xi点的近邻(该邻域由参数h定义)附近存在一些未知但非零的密度,并使用核K进行解释。积分越多是在一些社区,更密度积累围绕这个区域,因此,整体密度越高fh^。将得到的函数fh^现在可以评估任何x(不带下标)以获得其密度估计,这就是我们获得函数fh^(x),该函数近似为未知密度函数f(x)

关于核密度的好处是,与直方图不同,它们是连续函数,并且它们本身是有效的概率密度,因为它们是有效概率密度的混合。在许多情况下,这与逼近f尽可能接近。

内核密度与其他密度(作为正态分布)之间的区别在于“常规”密度是数学函数,而内核密度是使用数据估算的真实密度的近似值,因此它们不是“独立”分布。

我会向您推荐Silverman(1986)和Wand and Jones(1995)的两本不错的入门书籍。


西尔弗曼,BW(1986)。用于统计和数据分析的密度估计。CRC /查普曼和霍尔。

Wand,MP和Jones,MC(1995)。内核平滑。伦敦:查普曼和霍尔/ CRC。


在这里是什么?x
user366312

@anonymous 是您的数据点,x是您评估密度函数的点。xix
蒂姆

1
@anonymous我在“用简单的英语说...”末尾添加了评论引用您的问题的编辑。
蒂姆

4

ϕ

xϕh(xix)xx1=1x2=2σ=1ϕhxN1,1(x)+N2,1(x)2

3)您可以插入任何喜欢的密度功能作为窗口功能。

h

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.