Answers:
Parzen窗口密度估计是内核密度估计的另一个名称。这是一种从数据估计连续密度函数的非参数方法。
想象一下,您有一些数据点来自共同的未知(大概是连续的)分布。您有兴趣估算给定数据的分布。您可以做的一件事就是简单地查看经验分布并将其视为等效于真实分布的样本。但是,如果您的数据是连续的,那么很可能会看到每个点在数据集中仅出现一次,因此基于此,您可以得出结论,由于每个值具有相等的概率,因此数据来自均匀分布。希望您可以做得更好:您可以将数据打包在一定数量的等距间隔中,并对每个间隔中的值进行计数。该方法将基于估计直方图。不幸的是,使用直方图,您最终会得到一定数量的bin,而不是连续分布,因此这只是一个粗略的近似值。
内核密度估计是第三种选择。主要思想是,您通过连续分布K的混合体(使用符号ϕ)近似,即内核,其中心位于x i个数据点,并且标度(带宽)等于h:
这在下面的图片中进行了说明,其中给定七个数据点(由图顶部的彩色线标记),正态分布用作内核,带宽不同值用于估计分布。绘图上的彩色密度是位于点中心的核。请注意,是一个相对参数,始终根据您的数据选择其值,并且对于不同的数据集,相同的值可能不会给出相似的结果。
内核可以看作是概率密度函数,它需要整合为一。它也必须是对称的,以使,然后以0为中心。维基百科有关内核的文章列出了许多流行的内核,例如高斯(正态分布),Epanechnikov,矩形(均匀分布)等。基本上,满足这些要求的任何分布都可以用作内核。
显然,最终估计将取决于您选择的内核(但不是那么多)以及带宽参数。以下线程 如何在内核密度估计中解释带宽值?详细描述带宽参数的用法。
用简单的英语说,您在这里假设的是观测点只是一个样本,并且遵循一些估计的分布。由于分布是连续的,因此我们假设在点的近邻(该邻域由参数定义)附近存在一些未知但非零的密度,并使用核进行解释。积分越多是在一些社区,更密度积累围绕这个区域,因此,整体密度越高。将得到的函数现在可以评估任何点(不带下标)以获得其密度估计,这就是我们获得函数,该函数近似为未知密度函数。
关于核密度的好处是,与直方图不同,它们是连续函数,并且它们本身是有效的概率密度,因为它们是有效概率密度的混合。在许多情况下,这与逼近尽可能接近。
内核密度与其他密度(作为正态分布)之间的区别在于“常规”密度是数学函数,而内核密度是使用数据估算的真实密度的近似值,因此它们不是“独立”分布。
我会向您推荐Silverman(1986)和Wand and Jones(1995)的两本不错的入门书籍。
西尔弗曼,BW(1986)。用于统计和数据分析的密度估计。CRC /查普曼和霍尔。
Wand,MP和Jones,MC(1995)。内核平滑。伦敦:查普曼和霍尔/ CRC。