内核密度估计中的内核带宽


10

我正在进行一些内核密度估计,并在N维上设置了加权点(即,每个样本的权重都不是必需的)。而且,这些样本只是在度量空间中(即,我们可以定义它们之间的距离),而没有别的。例如,我们无法确定采样点的均值,标准差,也无法确定一个变量与另一个变量的比例。内核仅受此距离以及每个样本的重量的影响:

f(x)=1.weightsiweightihKernel(distance(x,xi)h)

在这种情况下,我试图为内核带宽找到一个鲁棒的估计,可能在空间上变化,并且最好在训练数据集x i上给出准确的重建。如有必要,我们可以假设函数相对平滑。hxi

我尝试使用到第一个或第二个最近邻居的距离,但得出的结果很差。我尝试了留一法最优化,但是在Nd的这种情况下我很难找到一个最佳的方法来进行优化,因此它发现非常差的估计,尤其是对于训练样本本身。由于无法计算标准差,因此无法基于正常假设使用贪婪估计。我发现使用协方差矩阵来获取各向异性内核的引用,但同样,它在该空间中不成立...

有人有想法或参考吗?


如果可以测量距离,则可以测量平均值。那正确吗?我可能会说“我在用余弦距离表示单词”,所以“平均单词并没有真正的意义”,但是我不明白为什么仍然无法计算它。您可能会说您处于序数空间中,因此均值不会持续被重视。为什么平均值是不确定的?
EngrStudent

Answers:



2

在Matlab文件交换上,有一个kde函数可在使用高斯内核的前提下提供最佳带宽:内核密度估计器

即使您不使用Matlab,也可以通过此代码解析其计算最佳带宽的方法。这是文件交换中评价很高的功能,我已经使用了很多次。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.