统一bin直方图何时比不均匀bin更好?
这需要对我们要优化的内容进行某种识别;许多人试图优化平均积分均方误差,但在许多情况下,我认为这有点遗漏了直方图的意义;在我看来,这常常“使人过失”;对于直方图之类的探索性工具,我可以忍受更多的粗糙度,因为粗糙度本身可以让我感觉到眼睛应该“平滑”的程度。我倾向于使此类规则的垃圾箱数量至少增加一倍,有时还会更多。在这方面,我倾向于同意安德鲁·盖尔曼(Andrew Gelman)的观点。确实,如果我的兴趣真的是要获得一个不错的AIMSE,那么我可能不应该考虑直方图。
因此,我们需要一个标准。
让我开始讨论一些非等面积直方图的选项:
有一些方法在密度较低的区域中进行更多的平滑处理(较少,较宽的条带),而在密度较高的区域则具有较窄的条带,例如“等面积”或“等计数”直方图。您编辑过的问题似乎考虑了相等计数的可能性。
histogram
R lattice
包中的函数可以产生大约相等面积的条:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
如果您扎根于第四根,则位于最左侧垃圾箱右侧的倾角更加清晰。如果使用等宽的垃圾箱,除非您使用15到20倍的垃圾箱,否则您将看不到它,然后右尾巴看起来很糟糕。
这里有一个相等数直方图这里,与R-代码,它使用采样位数找到休息。
例如,在与上述相同的数据上,这是6个bin,每个(希望)有8个观察值:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
这个CV问题指向Denby和Mallows撰写的一篇论文,该论文的版本可从此处下载,该版本描述了等宽面箱和等面积面箱之间的折衷方案。
它还在一定程度上解决了您遇到的问题。
您也许可以将问题视为识别分段常数Poisson过程中的中断之一。那将导致这样的工作。也有可能根据泊松计数来查看聚类/分类类型算法,其中一些算法会产生许多分类。已在2D直方图(实际上是图像)上使用聚类来标识相对同质的区域。
-
如果我们有一个相等计数的直方图,并且有一些优化的标准,那么我们可以尝试每个bin的计数范围并以某种方式评估该标准。这里提到的Wand论文[ 论文,或工作论文pdf ]及其一些参考文献(例如,参考Sheather等人的论文)概述了基于核平滑思想以优化AIMSE的“插入式”箱体宽度估计。从广义上讲,这种方法应该适应这种情况,尽管我不记得看到这样做了。