我正在进行一些内核密度估计,并在N维上设置了加权点(即,每个样本的权重都不是必需的)。而且,这些样本只是在度量空间中(即,我们可以定义它们之间的距离),而没有别的。例如,我们无法确定采样点的均值,标准差,也无法确定一个变量与另一个变量的比例。内核仅受此距离以及每个样本的重量的影响:
在这种情况下,我试图为内核带宽找到一个鲁棒的估计,可能在空间上变化,并且最好在训练数据集x i上给出准确的重建。如有必要,我们可以假设函数相对平滑。
我尝试使用到第一个或第二个最近邻居的距离,但得出的结果很差。我尝试了留一法最优化,但是在Nd的这种情况下我很难找到一个最佳的方法来进行优化,因此它发现非常差的估计,尤其是对于训练样本本身。由于无法计算标准差,因此无法基于正常假设使用贪婪估计。我发现使用协方差矩阵来获取各向异性内核的引用,但同样,它在该空间中不成立...
有人有想法或参考吗?
如果可以测量距离,则可以测量平均值。那正确吗?我可能会说“我在用余弦距离表示单词”,所以“平均单词并没有真正的意义”,但是我不明白为什么仍然无法计算它。您可能会说您处于序数空间中,因此均值不会持续被重视。为什么平均值是不确定的?
—
EngrStudent