一段时间以来,Fisher Kernels似乎很受欢迎,因为它们似乎是一种根据概率模型构造核的方法。但是,我很少见到它们在实践中使用过,而且我有很好的权威,认为它们往往效果不佳。他们依靠Fisher信息的计算-引用Wikipedia:
Fisher信息相对于f的自然对数θ是二阶导数期望值的负值。信息可以看作是支持曲线的“曲率”在θ的最大似然估计(MLE)附近的度量。
据我所知,这意味着两点之间的核函数就是沿着该曲面的距离-是吗?
但是,这对于在内核方法中使用可能会有问题,因为
- 对于给定的模型,MLE可能是非常糟糕的估计
- MLE周围的支撑曲线的曲率可能无法用于区分实例,例如,如果似然表面非常尖
- 这似乎抛弃了有关模型的许多信息
如果是这样的话,还有没有更多现代的方法可以从概率方法构造内核?例如,我们可以使用保留集以相同的方式使用MAP估算吗?与概率方法的距离或相似度还有哪些其他概念可以用来构造(有效)内核函数?