变量核通常用于局部回归。例如,黄土被广泛使用并且可以作为回归平滑器使用,并且基于适应数据稀疏性的可变宽度内核。
另一方面,通常认为可变核在核密度估计中导致较差的估计量(请参见Terrell和Scott,1992年)。
他们有一个直观的原因,为什么它们可以很好地进行回归而不是密度估计?
变量核通常用于局部回归。例如,黄土被广泛使用并且可以作为回归平滑器使用,并且基于适应数据稀疏性的可变宽度内核。
另一方面,通常认为可变核在核密度估计中导致较差的估计量(请参见Terrell和Scott,1992年)。
他们有一个直观的原因,为什么它们可以很好地进行回归而不是密度估计?
Answers:
这里似乎有两个不同的问题,我将尝试拆分:
1)KS,内核平滑与KDE,内核密度估计有何不同?好吧,假设我有一个估算器/平滑器/插值器
est( xi, fi -> gridj, estj )
并且碰巧知道xi处的“实际”密度f()。然后运行
est( x, densityf )
必须给出densityf()的估计值:KDE。很可能对KS和KDE的评估方式有所不同-不同的平滑度标准,不同的规范-但我看不出根本的区别。我想念什么?
2)尺寸如何直观地影响估计或平滑?这是一个玩具例子,只是为了帮助直觉。考虑一个在均匀网格中的N = 10000个点的框,以及其中W = 64个点的窗口,线条,正方形或立方体:
1d 2d 3d 4d
---------------------------------------------------------------
data 10000 100x100 22x22x22 10x10x10x10
side 10000 100 22 10
window 64 8x8 4x4x4 2.8^4
side ratio .64 % 8 % 19 % 28 %
dist to win 5000 47 13 7
这里的“边比”是窗口边/盒子边,“获胜距离”是盒子中随机点到随机放置的窗口的平均距离的粗略估计。
这一点有意义吗?(图片或小程序确实有帮助:任何人?)
这个想法是,在1d 2d 3d 4d中,固定大小的框内的固定大小的窗口与其余框的接近度非常不同。这是用于统一网格;对维度的强烈依赖可能会延续到其他分布,也许不会。无论如何,它看起来像是强烈的一般效果,是维度诅咒的一个方面。
内核密度估计意味着在本地(模糊)窗口上进行积分,内核平滑意味着在本地(模糊)窗口上进行平均。
这些都一样吗?
考虑布尔值函数的样本,即同时包含“真实样本”(每个具有单位值)和“虚假样本”(每个具有零值)的集合。假设总体样本密度是恒定的(如网格),则此函数的局部平均值与真值子集的局部(部分)密度相同。(错误的样本使我们能够不断忽略平滑方程的分母,而将零项添加到求和中,从而简化为密度估计方程。)
同样,如果在布尔栅格上将样本表示为稀疏元素,则可以通过对栅格应用模糊滤镜来估计其密度。
这些有什么不同?
直观上,您可能希望平滑算法的选择取决于样本测量值是否包含明显的测量误差。
在一种极端情况下(无噪声),您只需要在样本位置的已知值之间进行插值。用Delaunay三角剖分(双线性分段插值)说。
密度估算类似于相反的极端,它完全是噪声,因为隔离的样品在该点没有测量密度值。(因此,没有什么可以简单地插值的。您可以考虑测量Voronoi图单元格区域,但是平滑/去噪仍然很重要。)
关键是尽管存在相似性,但这些根本上是不同的问题,因此不同的方法可能是最佳的。