如果在进行内核密度估计时Epanechnikov内核在理论上是最佳的,为什么不更常用呢?


18

我已经阅读(例如,在这里),在进行核密度估计时,至少在理论上,Epanechnikov核是最佳的。如果这是真的,那么为什么高斯在密度估计库中频繁显示为默认内核,或者在许多情况下是唯一的内核?


2
这里有两个问题:为什么不更常用?为什么高斯通常是默认/唯一内核?听起来有些琐碎,但对于不熟练使用该语言的人来说,Epanechnikov这个名称似乎很难正确拼写和发音。(我什至不确定E.是否是俄语;我没有找到任何个人履历。)此外,如果我显示(例如)双重锤,请评论其铃铛形状,有限的宽度和边缘的行为,这似乎更容易出售。Epanechnikov是Stata的默认值kdensity
尼克·考克斯

3
我还要补充说,这种理论上的最优性在实践中几乎没有影响。
西安,

2
这是一个熟悉的名字。如果使用没有有限支持的内核是有意义的,那么您应该选择它。就我的经验来看,这没有任何意义,因此选择似乎是社会性的,而不是技术性的。
Nick Cox

2
@NickCox,是的,E是俄罗斯佬,不是缩写:)他是个神秘人物,是您所能找到的关于他的一切。我还记得一本非常有用的书,有人用他的名字在可编程计算器上写​​过,是的,这在当时是一件大事
Aksakal

1
@amoeba他在ИнститутрадиотехникииэлектроникиРоссийскойАкадемииНауким工作。Котельникова,我敢打赌他做了分类研究,全名是ЕпанечниковВикторАлександрович–
Aksakal

Answers:


7

Epanechnikov内核之所以在理论上的最优性未被普遍使用,可能是因为Epanechnikov内核实际上在理论上并不是最优的。Tsybakov明确地批评了非参数估计简介(第1.2.4节)的第16-19页中的Epanechnikov核是“理论上最优的”这一论点。

试图总结一下,在关于核K和固定密度p一些假设下,人们具有均方根误差的形式为

(1)1nhK2(u)du+h44SK2(p(x))2dx.

对于Tsybakov的主要批评似乎是尽量减少非负内核,因为通常有可能获得性能更好的估计量,甚至是非负的,而又不限于非负内核。

对于Epanechnikov内核,论证的第一步首先是将最小化,并将所有非负内核(而不是更宽泛的类的所有内核最小化,以获得的“最佳”带宽(1)hK

hMISE(K)=(K2nSK2(p)2)1/5

和“最佳”内核(Epanechnikov)

K(u)=34(1u2)+

其平均积分平方误差为:

hMISE(K)=(15n(p)2)1/5.

然而,这些都不是可行的选择,因为它们取决于未知密度知识(通过),因此它们是“预言”量。pp

Tsybakov给出的一个命题暗示着Epanechnikov甲骨文的渐进MISE为:

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

Tsybakov说(2)通常被认为是可实现的最佳MISE,但随后表明,对于每个,人们可以使用2阶内核()构造内核估计量,这样SK=0ε>0

lim supnn4/5Ep(p^n(x)p(x))2dxε.

即使不一定非负数,对于正部分估计量(仍保证即使不为非负):p^npn+:=max(0,p^n)K

lim supnn4/5Ep(pn+(x)p(x))2dxε.

因此,对于足够小的情况,即使对未知密度使用相同的假设,也存在比Epanechnikov 甲骨文更小的真实渐近MISE的真实估计量ε p

尤其是,结果是,所有核估计量(或核估计量的正部分)上固定的渐近MISE的最小值为。因此,即使与真实的估计量相比,Epanechnikov的预言甚至还不是最优的。p0

人们之所以首先提出Epanechnikov甲骨文的论点,是因为人们经常认为内核本身应该是非负的,因为密度本身是非负的。但是正如Tsybakov指出的那样,为了获得非负密度估计量,不必假设内核是非负数,并且通过允许其他内核,一个可以(1)不是预言值的非负密度估计量就可以了。和(2)对于固定,其p性能比Epanechnikov oracle任意好。齐巴科夫(Tsybakov)利用这种差异来辩称,对于固定最优性进行争论是没有道理的,而是仅针对在一上一致的最优性。p的密度。他还指出,使用MSE而不是MISE时,该参数仍然有效。

编辑:另请参阅推论1.1。在第25页上,根据另一个标准,Epanechnikov内核显示为不可接受的。Tsybakov确实似乎不喜欢Epanechnikov内核。


4
+1是有趣的读物,但这不能回答为什么高斯内核比Epanechnikov内核使用得更多的原因:它们都是非负的。
变形虫说恢复莫妮卡

@amoeba是的。至少这可以回答标题中的问题,该问题仅与Epanechnikov内核有关。(即,它解决了问题的前提并表明它是错误的。)
Chill2Macht

3
(+1)提赛巴科夫(Tsybakov)采取可能为负的核估计的正部分的方案(这至少是我对他的建议的记忆),要提防的一点是,尽管最终的密度估计器可能会使MSE收敛到真实密度,密度估算值通常将不是有效的密度(因为您要切除质量,并且不再积分为1)。如果您实际上只关心MSE,那没关系,但是有时这将是一个重大问题。
Dougal

2

高斯核例如用于通过导数进行密度估计:

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

这是因为Epanechnikov内核在等于零之前先有3个导数,这与具有无限多个(非零)导数的高斯不同。有关更多示例,请参见链接中的2.10节。


2
Epanechnikov 内核的一阶导数(顺便说一下,注意第二个n)在函数越过内核自身边界时是不连续的。那可能更成问题。
Glen_b-恢复莫妮卡

@Glen_b:你可能是对的,尽管在之后有0个导数也很愚蠢。i
亚历克斯R.16年

1
@AlexR。尽管您说的是正确的,但我不明白它如何解释为什么高斯在普通密度估计中如此常见(而不是估计密度的导数)。即使在估计导数时,第2.10节也建议高斯永远不会是首选内核。
John Rauser

@JohnRauser:请记住,您需要使用更高阶的Epanechnikov内核来实现最优性。通常人们使用高斯,因为它更易于使用并且具有更好的属性。
Alex R.16年

1
@AlexR我会在“人们通常使用高斯语”上之以鼻;您是否有关于使用频率的系统性数据,或者仅仅是基于您所看到的工作的印象?我经常看到重量级,但是我不会要求更多。
Nick Cox
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.