每当怀疑直方图的细节不是噪声而是有趣的或重要的精细结构时,就有大量的bin(例如,每个可能的值的bin)是一个很好的情况。
这与该问题的确切动机没有直接关系,而是需要一个自动规则来确定一些最佳箱数,但它与整个问题有关。
让我们立即跳到例子。在人口统计学中,通常对报告的年龄进行四舍五入,特别是但不仅限于识字能力有限的国家。可能发生的事情是,许多人不知道自己的确切出生日期,或者出于社会或个人原因,低估或夸大了他们的年龄。军事历史上充斥着许多人撒谎的事实,以逃避或寻求服役。的确,即使他们不打算对人口普查撒谎,许多读者也会认识到一个对自己的年龄非常very或不太诚实的人。最终结果会有所不同,但是正如已经暗示的通常是四舍五入,例如,以0和5结尾的年龄比一年或更短的年龄更为普遍。
即使在完全不同的问题上,也存在类似的数字偏爱现象。对于某些老式的测量方法,必须通过对刻度标记之间的内插法来目测所报告测量的最后一位。这是水银温度计在气象学中的长期标准。已经发现,集体报告的某些数字比其他数字更普遍,而且我们每个人中的每个人都有签名,这是一种偏爱某些数字而不是其他数字的个人模式。这里通常的参考分布是均匀的,也就是说,只要可能的测量范围比测量的“单位”大很多倍,那么最终的数字就有望以相等的频率出现。因此,如果报告的遮阳温度可以覆盖(例如)50∘C的最后十位数字,小数位.0,.1,,.8,.9的出现概率分别为0.1。即使在更有限的范围内,该近似值的质量也应该很好。⋯
顺便说一句,查看报告数据的最后一位数字是一种简单而好的检查伪造数据的方法,与当前流行的对本福德定律的审查相比,这种方法比目前流行的对第一位数的检查更容易理解且没有问题。
直方图的结果现在应该清楚了。尖峰状的显示可以用来显示或更一般的检查这种精细的结构。自然,如果看不到任何感兴趣的图形,则该图形可能用处不大。
一个例子显示了1960年加纳人口普查的年龄堆积情况。请参阅http://www.stata.com/manuals13/rspikeplot.pdf
对最终数字的分布进行了很好的回顾
Preece,DA 1981年。数据中最终数字的分布。统计学家 30:31-60。
关于术语的注释:一些人最好谈论变量的不同值时,写出变量的唯一值。词典和用法指南仍然建议“唯一”是指仅发生一次。因此,所报告的人群的不同年龄可以是0、1、2等,但这些年龄中的绝大多数不是一个人独有的。