如果可变的内核宽度通常对内核回归有利,那么为什么它们通常对内核密度估计不利?


17

这个问题是由其他地方讨论引起的。

变量核通常用于局部回归。例如,黄土被广泛使用并且可以作为回归平滑器使用,并且基于适应数据稀疏性的可变宽度内核。

另一方面,通常认为可变核在核密度估计中导致较差的估计量(请参见Terrell和Scott,1992年)。

他们有一个直观的原因,为什么它们可以很好地进行回归而不是密度估计?


2
您写了“另一方面,可变核通常被认为导致核密度估计的估计不佳”,您提到的论文的哪一部分使您相信?我在其他方面有很多参考文献,例如,参见本文中提到的参考文献:arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf
robin girard 2010年

1
Terrell和Scott的摘要很好地总结了这一点:“所有版本中最近的邻居估计量在一维和二维方面的表现都很差”。他们似乎只在多元密度估计中发现了很多优势。
罗伯·海德曼

3
“最近邻居”不是唯一的可变内核。我提到的论文使用其他工具,例如Lepskii的算法。我将阅读AOS论文,但是由于最近邻居的性能应随维度而降低,因此我发现奇怪的是,增加维度可带来“非常非参数”的估计器的优势(如果我们承认恒定带宽小于非参数变化的带宽)。在这种情况下,通常使用评估案例来确定结果...
罗宾吉拉德

@Robin Girard:> *感到奇怪的是,增加尺寸会给“非常非参数”的估计量带来好处(如果我们承认恒定带宽比变化带宽更非参数)*这句话有错字吗?否则,您似乎至少在直觉上同意作者。感谢确认/纠正。
user603 2010年

@kwak感谢您的注意!这是一个错字:我想说的恒定带宽小于NP ......我不能修改我的评论:(抱歉。
罗宾·吉拉德

Answers:


2

这里似乎有两个不同的问题,我将尝试拆分:

1)KS,内核平滑与KDE,内核密度估计有何不同?好吧,假设我有一个估算器/平滑器/插值器

est( xi, fi -> gridj, estj )

并且碰巧知道xi处的“实际”密度f()。然后运行 est( x, densityf ) 必须给出densityf()的估计值:KDE。很可能对KS和KDE的评估方式有所不同-不同的平滑度标准,不同的规范-但我看不出根本的区别。我想念什么?

2)尺寸如何直观地影响估计或平滑?这是一个玩具例子,只是为了帮助直觉。考虑一个在均匀网格中的N = 10000个点的框,以及其中W = 64个点的窗口,线条,正方形或立方体:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

这里的“边比”是窗口边/盒子边,“获胜距离”是盒子中随机点到随机放置的窗口的平均距离的粗略估计。

这一点有意义吗?(图片或小程序确实有帮助:任何人?)

这个想法是,在1d 2d 3d 4d中,固定大小的框内的固定大小的窗口与其余框的接近度非常不同。这是用于统一网格;对维度的强烈依赖可能会延续到其他分布,也许不会。无论如何,它看起来像是强烈的一般效果,是维度诅咒的一个方面。


0

内核密度估计意味着在本地(模糊)窗口上进行积分,内核平滑意味着在本地(模糊)窗口上进行平均

ÿX1个ρXķ||X-X一世||ÿ一世

ρXķ||X-X一世||

这些都一样吗?

考虑布尔值函数的样本,即同时包含“真实样本”(每个具有单位值)和“虚假样本”(每个具有零值)的集合。假设总体样本密度是恒定的(如网格),则此函数的局部平均值与真值子集的局部(部分)密度相同。(错误的样本使我们能够不断忽略平滑方程的分母,而将零项添加到求和中,从而简化为密度估计方程。)

同样,如果在布尔栅格上将样本表示为稀疏元素,则可以通过对栅格应用模糊滤镜来估计其密度。

这些有什么不同?

直观上,您可能希望平滑算法的选择取决于样本测量值是否包含明显的测量误差。

在一种极端情况下(无噪声),您只需要在样本位置的已知值之间进行插值。用Delaunay三角剖分(双线性分段插值)说。

密度估算类似于相反的极端,它完全是噪声,因为隔离的样品在该点没有测量密度值。(因此,没有什么可以简单地插值的。您可以考虑测量Voronoi图单元格区域,但是平滑/去噪仍然很重要。)

关键是尽管存在相似性,但这些根本上是不同的问题,因此不同的方法可能是最佳的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.