Answers:
密度估计应用的一种典型情况是新颖性检测,也称为离群值检测,其思想是您仅(或大部分)拥有一种类型的数据,但是您对非常稀有的,定性的数据感兴趣,这些数据与这些常见的情况。
例如欺诈检测,系统故障检测等。在这些情况下,收集您感兴趣的数据非常困难和/或昂贵。这些罕见的情况,即发生概率低的情况。
在大多数情况下,您不希望准确估计准确的分布,而是对相对几率(给定样本成为实际离群值而不是一个离群值的可能性)。
关于该主题有数十种教程和评论。这个一个可能是一个好的开始。
编辑:对于某些人来说,使用密度估计进行离群值检测似乎很奇怪。让我们首先就一件事达成共识:当某人适合混合模型时到他的数据时,他实际上是在进行密度估计。混合模型表示概率分布。
kNN和GMM实际上是相关的:它们是估计这种概率密度的两种方法。这是新颖性检测中许多方法的基本思想。例如,这个基于kNN的模型,另一个基于Parzen窗口的模型(在本文开始时就强调了这个想法),还有许多其他模型。
在我看来(但这只是我个人的看法),大部分(如果不是全部)都可以实现该想法。您还如何表达异常/稀有事件的想法?