内核带宽:Scott与Silverman的规则


14

谁能用简单的英语解释带宽选择的斯科特和西尔弗曼经验法则之间的区别是什么?具体来说,什么时候比另一种更好?它与基础分布有关吗?样品数量?

PS:我指的是SciPy中的代码


1
我也不想知道python。我只需要帮助了解何时使用哪个规则以及为什么使用。
xrfang 2014年

Answers:


11

代码中的注释似乎最终定义了两个基本相同的变量(常量的相对较小差异)。

cAn1/5Ac

3.49sn1/3nclass.scott

代码称为“斯科特估算”的1.059在Silverman的(先前的)书中(请参阅链接中的Silverman参考文献的第45页-斯科特的推论在他们引用的书的p130-131中)。它来自正常理论的估计。

1.059σ

Aσ

出于与我之前建议的类似原因,Silverman继续建议减少1.059(实际上,他实际上始终使用1.06,而不是Scott的书中的1.059)。他选择了一个降低的值,该值在正常情况下对IMSE的损失不超过10%,这是0.9的来源。

因此,这两个binwidth均基于正常情况下的IMSE最佳binwidth,其中一个恰好位于最佳位置,另一个恰好(较小约15%,以使其在正常情况下达到最佳效率的90%以内)。[我将它们称为“ Silverman”估算。我不知道为什么他们为斯科特(Scott)命名1.059。]

我认为两者都太大了。我不使用直方图来获得IMSE最佳密度估计值。如果那是我想要做的(获得IMSE上最佳的密度估计值),则我不想为此使用直方图。

直方图应在嘈杂的一面出现误差(让眼睛进行必要的平滑处理)。我几乎总是将这些规则提供的默认箱数加倍(或更多)。因此,我不会使用1.06或0.9,而倾向于使用大约0.5的值,在大样本量的情况下可能会更少。

实际上,它们之间几乎没有选择,因为它们都提供了太少的bin,因此不足以用于查找数据中发生的事情(至少在很小的样本量下,请参见此处)

[1]:斯科特,DW(1979), “关于最佳和数据为基础的直方图,” Biometrika66,605-610。


根据此处的 SciPy文档,斯科特规则为:n **(-1./(d+4))。通过查看代码,我发现我误解了与“ scotts_factor”相同的规则。没错,带宽太大了。我将打开一个有关数字带宽选择的新问题。谢谢。
xrfang 2014年

d=1n1/5Ac

@ Glen_b-ReinstateMonica您能看看我在这里发布的问题吗?我展示了使用大样本量时Silverman规则可能带来的问题。您能回答详细情况吗?
user269666
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.