自适应核密度估计器?


12

谁能用自适应核密度估计器报告其经验?
(有很多同义词:自适应|变量|可变宽度,KDE |直方图|插值器...)

可变核密度估计 表示“我们在样本空间的不同区域中改变核的宽度。有两种方法……”实际上更多:更多是在一定半径范围内的邻居,KNN最近邻居(通常是K),Kd树,多重网格...
当然,没有任何一种方法可以做所有事情,但是自适应方法看起来很有吸引力。
例如,参见有限元方法中的自适应2d网格的精美图片 。

我想听听对实际数据有效的/无效的,特别是在2d或3d中> = 100k分散的数据点。

添加11月2日:这是一个“笨拙的”密度(逐段x ^ 2 * y ^ 2),最近邻估计以及高斯KDE与Scott因子的关系图。虽然一(1)个示例没有证明任何内容,但它确实表明NN可以很好地适应陡峭的山丘(并且使用KD树,在2d,3d中速度很快...) 替代文字


您能否提供更多有关“什么有效”或您手头项目的特定目标的含义的上下文。我已经使用它们来可视化空间点过程,但是我怀疑那是您在问这个问题时想到的。
安迪W

Answers:


7

文章* DG Terrell;DW Scott(1992)。“可变核密度估计”。统计20年报:1236年至1265年*你自己清楚地引用维基百科文章的末尾引用指出,除非观测的空间是非常稀疏的变量核方法推荐全球均方根误差的基础上(包括本地上高斯分布随机变量:(通过理论参数)他们引用了(是样本量)和(通过自举结果)(n450np4p 是维数)作为变量内核方法与固定宽度方法竞争的设置(从您的问题来看,您不在这些设置中)。

这些结果背后的直觉是,如果您的设置不是很稀疏,则局部密度根本不会变化得足以使偏置增益超过效率损失(因此,可变宽度内核的AMISE相对于固定宽度的AMISE)。同样,鉴于样本量大(尺寸小),固定宽度的核将已经非常局部化,从而减少了任何可能的偏差。


谢谢郭国。“ ...用于高斯分布随机变量”;您知道“笨拙”的发行版的新作品吗?
denis 2010年

@Denis:>'Clumpy'=?concentrated = ??的尾部比高斯窄?
user603 2010年

我不是专家,但是像Lang等人在论文《快速内核密度估计算法的见解》中的“数据集笨拙”,2004年,8p
denis

@Denis:>我会说这使问题变得更糟(即NN内核在较少的块状数据上应该可以更好地工作)。我有一个直观的解释,但这里并不适用,此外,您可能希望在主板上将此问题作为一个单独的问题(链接至此问题)以提出其他意见。
user603 2010年


-1

黄土/低土基本上是一种可变的KDE方法,其内核宽度由最近邻方法设置。我发现它工作得很好,当数据点的密度显着变化时,它肯定比任何定宽模型都要好。

使用KDE和多维数据时要注意的一件事是维数的诅咒。在其他条件相同的情况下,当p〜10时,设置半径内的点比p〜2时要少得多。如果您只有3d数据,这对您来说可能不是问题,但要记住这一点。


3
黄土是一种可变核回归方法。该问题询问了可变核密度估计。
Rob Hyndman

糟糕,您是对的。误解了问题。
Hong Ooi 2010年

@Rob,请问我天真的问题:如果改变内核宽度(有时)对局部回归/内核平滑有好处,为什么对密度估计不利?密度估计不是f()== density()的f()估计的情况吗?
丹尼斯2010年

@Hong Ooi,您在Ndim中使用了多少点?谢谢
denis 2010年

@丹尼斯 好问题。您能否将其添加为网站上的适当问题,我们将看到人们能提供什么答案。
罗伯·海德曼
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.