内核密度估计中的内核带宽

10

我正在进行一些内核密度估计，并在N维上设置了加权点（即，每个样本的权重都不是必需的）。而且，这些样本只是在度量空间中（即，我们可以定义它们之间的距离），而没有别的。例如，我们无法确定采样点的均值，标准差，也无法确定一个变量与另一个变量的比例。内核仅受此距离以及每个样本的重量的影响：

f (x) = \frac{1.}{\sum w e i g h t s_{i}} * \sum \frac{w e i g h t_{i}}{h} * K e r n e l (\frac{d i s t a n c e (x, x_{i})}{h})

$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$

在这种情况下，我试图为内核带宽找到一个鲁棒的估计，可能在空间上变化，并且最好在训练数据集上给出准确的重建。如有必要，我们可以假设函数相对平滑。 $h$ $x_i$

我尝试使用到第一个或第二个最近邻居的距离，但得出的结果很差。我尝试了留一法最优化，但是在Nd的这种情况下我很难找到一个最佳的方法来进行优化，因此它发现非常差的估计，尤其是对于训练样本本身。由于无法计算标准差，因此无法基于正常假设使用贪婪估计。我发现使用协方差矩阵来获取各向异性内核的引用，但同样，它在该空间中不成立...

有人有想法或参考吗？

pdf smoothing kernel-smoothing

— 惠特·安格尔
source

如果可以测量距离，则可以测量平均值。那正确吗？我可能会说“我在用余弦距离表示单词”，所以“平均单词并没有真正的意义”，但是我不明白为什么仍然无法计算它。您可能会说您处于序数空间中，因此均值不会持续被重视。为什么平均值是不确定的？

— EngrStudent

3

$k$

— 破旧的
source

2

在Matlab文件交换上，有一个kde函数可在使用高斯内核的前提下提供最佳带宽：内核密度估计器。

即使您不使用Matlab，也可以通过此代码解析其计算最佳带宽的方法。这是文件交换中评价很高的功能，我已经使用了很多次。

— Elpezmuerto
source