直方图中的间隔数是否有上限?


10

我读过的书本,介绍如何选择几篇文章和摘录良好的间隔数(箱)的数据集的直方图,但我想知道如果有一个硬最高基于点的数量区间的数数据集或其他标准。

背景:我问的原因是我试图基于研究论文中的程序编写软件。该过程的第一步是从数据集中创建多个直方图,然后根据特征函数(由本文的作者定义)选择最佳分辨率。我的问题是作者没有提到要测试的间隔数的上限。(我要分析数百个数据集,每个数据集可以具有不同的“最佳”箱数。另外,选择最佳箱数也很重要,因此手动查看结果并选择一个好的箱数不会工作。)

仅仅将最大间隔数设置为数据集中的点数是一个很好的准则,还是在统计中通常使用其他标准?


您是说等大小的垃圾箱(即间隔相同的垃圾箱)吗?
亚当·里奇科夫斯基

我相信答案将取决于您尝试实现的算法。如果您不提供该研究论文的链接,我认为这个问题是不完整的。
亚当·里奇科夫斯基

点的数量当然是理论上的最大值,但这几乎不是直方图,而是奇数格式的条形图或地毯图。
彼得·富勒姆

1
实际上,积分不是真正的最高点,对不起,我没有喝咖啡!一些箱将是0。例如,假设(对于一个简单的例子)您有3个点:1.02 2.21和5.92。如果您确实想要最大数量的垃圾箱,那么显然要多于3个。可能是6:1-2、2-3、3-4、4-5和5-6(具有适当的打开和关闭间隔,以避免双重垃圾箱)
彼得·弗洛姆

1
@whuber:值是对象轮廓与其质心的距离测量值的一组,归一化为[0,1]。本文将这些距离的分箱化为箱,通过最小化量化误差(来自分箱)加上直方图的pdf来求出最佳据我所知。2JJ
韦恩

Answers:


6

确实没有任何硬性上限,但是,另一方面,在大多数情况下,一旦您将所有独特的观测结果放入自己的储物箱中,更精细的储物箱只能用来更精确地确定其位置,而无需传达更多信息。例如比较这些:

30格的直方图
带有100个bin的直方图

除了在某些非常特殊的情况下,第二个情节可能没有实际好处,而在第一个情节中没有那么大的好处。如果您的数据是连续的,则可能远远超出了有用的bin数量。

因此,在大多数情况下,这似乎至少是一个实际的上限-每个单独的观察都位于其自己的容器中。

(如果在低于每独特的观察一个以上二进位的好处,你应该做一个rugplot或抖动的带状图来获得这方面的信息) -像什么在这些直方图的边缘做:

带抖动的直方图
带状图的直方图

(这些直方图来自此答案,接近尾声)


5

每当怀疑直方图的细节不是噪声而是有趣的或重要的精细结构时,就有大量的bin(例如,每个可能的值的bin)是一个很好的情况。

这与该问题的确切动机没有直接关系,而是需要一个自动规则来确定一些最佳箱数,但它与整个问题有关。

让我们立即跳到例子。在人口统计学中,通常对报告的年龄进行四舍五入,特别是但不仅限于识字能力有限的国家。可能发生的事情是,许多人不知道自己的确切出生日期,或者出于社会或个人原因,低估或夸大了他们的年龄。军事历史上充斥着许多人撒谎的事实,以逃避或寻求服役。的确,即使他们不打算对人口普查撒谎,许多读者也会认识到一个对自己的年龄非常very或不太诚实的人。最终结果会有所不同,但是正如已经暗示的通常是四舍五入,例如,以0和5结尾的年龄比一年或更短的年龄更为普遍。

即使在完全不同的问题上,也存在类似的数字偏爱现象。对于某些老式的测量方法,必须通过对刻度标记之间的内插法来目测所报告测量的最后一位。这是水银温度计在气象学中的长期标准。已经发现,集体报告的某些数字比其他数字更普遍,而且我们每个人中的每个人都有签名,这是一种偏爱某些数字而不是其他数字的个人模式。这里通常的参考分布是均匀的,也就是说,只要可能的测量范围比测量的“单位”大很多倍,那么最终的数字就有望以相等的频率出现。因此,如果报告的遮阳温度可以覆盖(例如)50C的最后十位数字,小数位.0,.1,,.8,.9的出现概率分别为0.1。即使在更有限的范围内,该近似值的质量也应该很好。

顺便说一句,查看报告数据的最后一位数字是一种简单而好的检查伪造数据的方法,与当前流行的对本福德定律的审查相比,这种方法比目前流行的对第一位数的检查更容易理解且没有问题。

直方图的结果现在应该清楚了。尖峰状的显示可以用来显示或更一般的检查这种精细的结构。自然,如果看不到任何感兴趣的图形,则该图形可能用处不大。

一个例子显示了1960年加纳人口普查的年龄堆积情况。请参阅http://www.stata.com/manuals13/rspikeplot.pdf

对最终数字的分布进行了很好的回顾

Preece,DA 1981年。数据中最终数字的分布。统计学家 30:31-60。

关于术语的注释:一些人最好谈论变量的不同值时,写出变量的唯一值。词典和用法指南仍然建议“唯一”是指仅发生一次。因此,所报告的人群的不同年龄可以是0、1、2等,但这些年龄中的绝大多数不是一个人独有的。


4

直方图中的箱数没有硬性最大值。如果要绘制的变量是连续的,则可以为无限多个类别提供参数(直方图基本上变成了地毯图)。

数据集中的点数不是适当的上限。考虑一个包含两个值的数据集:1和1000。具有两个bin不合适。

确定上限的两种实用方法是:a)确定数据的基础舍入。例如,如果数据是整数,则具有整数宽度的bin是有意义的。b)查看最大可见分辨率(例如,水平维度中可用于绘制的像素数)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.