密度估算在哪里有用?


14

在经过一些简短的数学之后,我认为我对内核密度估计有一点直觉。但是我也知道,就其估计量的统计特性而言,估计三个以上变量的多元密度可能不是一个好主意。

那么,在哪种情况下我应该使用非参数方法来估计双变量密度?是否有足够的价值开始担心要针对两个以上的变量进行估算?

如果您可以指向一些有关多元密度估计应用的有用链接,那就太好了。

Answers:


16

密度估计应用的一种典型情况是新颖性检测,也称为离群值检测,其思想是您仅(或大部分)拥有一种类型的数据,但是您对非常稀有的,定性的数据感兴趣,这些数据与这些常见的情况。

例如欺诈检测,系统故障检测等。在这些情况下,收集您感兴趣的数据非常困难和/或昂贵。这些罕见的情况,即发生概率低的情况。

在大多数情况下,您不希望准确估计准确的分布,而是对相对几率(给定样本成为实际离群值而不是一个离群值的可能性)。

关于该主题有数十种教程和评论。这个一个可能是一个好的开始。

编辑:对于某些人来说,使用密度估计进行离群值检测似乎很奇怪。让我们首先就一件事达成共识:当某人适合混合模型时到他的数据时,他实际上是在进行密度估计。混合模型表示概率分布。

kNN和GMM实际上是相关的:它们是估计这种概率密度的两种方法。这是新颖性检测中许多方法的基本思想。例如,这个基于kNN的模型,另一个基于Parzen窗口的模型(在本文开始时就强调了这个想法),还有许多其他模型

在我看来(但这只是我个人的看法),大部分(如果不是全部)都可以实现该想法。您还如何表达异常/稀有事件的想法?


您概述的注释集(第6节,“基于密度的方法”)概述了异常检测的一些非常深奥的方法(远没有关于该主题的平均文献和安静的发达文献)。当然,必须存在更常见的应用程序。
user603 2014年

2
抱歉,我不明白您的评论。两个非常基本的示例是kNN和GMM。这两种方法提供了概率密度的估计,并且可以用于此类情况。
jpmuc 2014年

谢谢。什么是GMM?我不认为kNN是用于异常值检测的均值流方法。您可以参考有关上下文的最新统计资料吗?(我查看了您所指向的幻灯片集中涉及异常值检测的论文,似乎是会议论文集或旧书)
user603 2014年

GMM =高斯混合模型。在幻灯片中,他们指的是基于kNN的得分。我个人曾经使用SVM进行新颖性检测。遗憾的是,我不能推荐您具体的教科书。这些说明(stats.ox.ac.uk/pub/StatMeth/Robust.pdf)也许就足够了。
jpmuc 2014年

1
我非常同意@ user603。乍一看,密度估计是一种试图找到异常值的非常奇怪和间接的方法。总结一下在实践中的应用方式以及为什么您认为效果很好,可以增强您的答案。
尼克·考克斯

4

X一世

FHXX一世经验值-X一世-XŤΣ-1个X一世-X
其中Σ-1个X一世

4

通常,吹捧KDE作为直方图的替代方法。在这种情况下,KDE优于直方图的主要优点是减轻了任意选择的参数对过程可视输出的影响。特别是(如上面的链接所示),KDE不需要用户指定起点和终点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.