我已经阅读(例如,在这里),在进行核密度估计时,至少在理论上,Epanechnikov核是最佳的。如果这是真的,那么为什么高斯在密度估计库中频繁显示为默认内核,或者在许多情况下是唯一的内核?
我已经阅读(例如,在这里),在进行核密度估计时,至少在理论上,Epanechnikov核是最佳的。如果这是真的,那么为什么高斯在密度估计库中频繁显示为默认内核,或者在许多情况下是唯一的内核?
Answers:
Epanechnikov内核之所以在理论上的最优性未被普遍使用,可能是因为Epanechnikov内核实际上在理论上并不是最优的。Tsybakov明确地批评了非参数估计简介(第1.2.4节)的第16-19页中的Epanechnikov核是“理论上最优的”这一论点。
试图总结一下,在关于核和固定密度一些假设下,人们具有均方根误差的形式为
对于Tsybakov的主要批评似乎是尽量减少非负内核,因为通常有可能获得性能更好的估计量,甚至是非负的,而又不限于非负内核。
对于Epanechnikov内核,论证的第一步首先是将最小化,并将所有非负内核(而不是更宽泛的类的所有内核最小化,以获得的“最佳”带宽
和“最佳”内核(Epanechnikov)
其平均积分平方误差为:
然而,这些都不是可行的选择,因为它们取决于未知密度知识(通过),因此它们是“预言”量。
Tsybakov给出的一个命题暗示着Epanechnikov甲骨文的渐进MISE为:
Tsybakov说(2)通常被认为是可实现的最佳MISE,但随后表明,对于每个,人们可以使用2阶内核()构造内核估计量,这样
即使不一定非负数,对于正部分估计量(仍保证即使不为非负):
因此,对于足够小的情况,即使对未知密度使用相同的假设,也存在比Epanechnikov 甲骨文更小的真实渐近MISE的真实估计量。
尤其是,结果是,所有核估计量(或核估计量的正部分)上固定的渐近MISE的最小值为。因此,即使与真实的估计量相比,Epanechnikov的预言甚至还不是最优的。
人们之所以首先提出Epanechnikov甲骨文的论点,是因为人们经常认为内核本身应该是非负的,因为密度本身是非负的。但是正如Tsybakov指出的那样,为了获得非负密度估计量,不必假设内核是非负数,并且通过允许其他内核,一个可以(1)不是预言值的非负密度估计量就可以了。和(2)对于固定,其性能比Epanechnikov oracle任意好。齐巴科夫(Tsybakov)利用这种差异来辩称,对于固定最优性进行争论是没有道理的,而是仅针对在一类上一致的最优性。的密度。他还指出,使用MSE而不是MISE时,该参数仍然有效。
编辑:另请参阅推论1.1。在第25页上,根据另一个标准,Epanechnikov内核显示为不可接受的。Tsybakov确实似乎不喜欢Epanechnikov内核。
高斯核例如用于通过导数进行密度估计:
这是因为Epanechnikov内核在等于零之前先有3个导数,这与具有无限多个(非零)导数的高斯不同。有关更多示例,请参见链接中的2.10节。
kdensity
。