具有均匀和不均匀容器的直方图


10

这个问题描述了均匀和不均匀直方图之间的基本区别。和这个问题讨论经验法则用于拾取均匀直方图的仓的数量优化(在某些意义上)该直方图表示该数据的样品绘制的分布程度。

我似乎找不到关于均匀和非均匀直方图的同类“最优性”讨论。我有一个离群点很远的聚类非参数分布,因此直觉上不均匀的直方图更有意义。但我希望对以下两个问题进行更精确的分析:

  1. 统一bin直方图何时比不均匀bin更好?
  2. 对于不均匀的直方图,有多少个bin?

对于不均匀的直方图,我认为是最简单的情况,我们从未知分布中抽取样本,对所得的值进行排序,然后将它们分成 bin,这样每个bin都具有个样本(假设对于某个大整数,)。通过取bin i中值的与bin i + 1中值的\ min之间的中点来形成范围。这里这里的链接描述了这些类型的非均匀直方图。ññķķññCķC最大值一世一世+1个


没有足够的信息来回答(2)。不均匀的条件是什么?您可以选择自己喜欢的垃圾箱,还是有一些限制?您想优化什么?例如,您是否想要和之间的最小均方积分误差?或者是其他东西?FF^
Glen_b-恢复莫妮卡

@Glen_b我将更详细地描述我在非均匀bin情况下考虑的直方图类型。
艾伦·图灵

检查您的编辑。您是说“ n = cm”而不是“ cn”吗?也有后来的错字。
Glen_b-恢复莫妮卡


另请参见关于此与通常的直方图之间折衷的讨论
Glen_b -Reinstate Monica13 2013年

Answers:


7

统一bin直方图何时比不均匀bin更好?

这需要对我们要优化的内容进行某种识别;许多人试图优化平均积分均方误差,但在许多情况下,我认为这有点遗漏了直方图的意义;在我看来,这常常“使人过失”;对于直方图之类的探索性工具,我可以忍受更多的粗糙度,因为粗糙度本身可以让我感觉到眼睛应该“平滑”的程度。我倾向于使此类规则的垃圾箱数量至少增加一倍,有时还会更多。在这方面,我倾向于同意安德鲁·盖尔曼Andrew Gelman)的观点。确实,如果我的兴趣真的是要获得一个不错的AIMSE,那么我可能不应该考虑直方图。

因此,我们需要一个标准。

让我开始讨论一些非等面积直方图的选项:

有一些方法在密度较低的区域中进行更多的平滑处理(较少,较宽的条带),而在密度较高的区域则具有较窄的条带,例如“等面积”或“等计数”直方图。您编辑过的问题似乎考虑了相等计数的可能性。

histogramR lattice包中的函数可以产生大约相等面积的条:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

等宽和等面积的比较

如果您扎根于第四根,则位于最左侧垃圾箱右侧的倾角更加清晰。如果使用等宽的垃圾箱,除非您使用15到20倍的垃圾箱,否则您将看不到它,然后右尾巴看起来很糟糕。

这里有一个相等数直方图这里,与R-代码,它使用采样位数找到休息。

例如,在与上述相同的数据上,这是6个bin,每个(希望)有8个观察值:

等值直方图

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

这个CV问题指向Denby和Mallows撰写的一篇论文,该论文的版本可从此处下载,该版本描述了等宽面箱和等面积面箱之间的折衷方案。

它还在一定程度上解决了您遇到的问题。

您也许可以将问题视为识别分段常数Poisson过程中的中断之一。那将导致这样的工作。也有可能根据泊松计数来查看聚类/分类类型算法,其中一些算法会产生许多分类。已在2D直方图(实际上是图像)上使用聚类来标识相对同质的区域。

-

如果我们有一个相等计数的直方图,并且有一些优化的标准,那么我们可以尝试每个bin的计数范围并以某种方式评估该标准。这里提到的Wand论文[ 论文,或工作论文pdf ]及其一些参考文献(例如,参考Sheather等人的论文)概述了基于核平滑思想以优化AIMSE的“插入式”箱体宽度估计。从广义上讲,这种方法应该适应这种情况,尽管我不记得看到这样做了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.