实际上,本福德定律是一种非常强大的方法。这是因为Benford的第一位数字频率分布适用于现实世界或自然世界中出现的各种数据集。
没错,您只能在某些情况下使用本福德定律。您说数据必须具有统一的日志分布。从技术上讲,这是绝对正确的。但是,您可以以更简单,宽容的方式描述需求。您所需要的只是数据集范围至少跨越一个数量级。假设从1到9或10到99或100到999。如果它超过两个数量级,则说明您正在做生意。而且,本福德定律应该会很有帮助。
本福德定律的优点在于,它可以帮助您真正迅速地缩小干草堆数据中的范围。您正在寻找异常,由此第一位数字的频率与本福德频率大不相同。一旦注意到有两个很多6,就可以使用本福德定律只关注6。但是,您现在将其带到前两位数字(60、61、62、63等)。现在,也许您发现比Benford建议的要多得多的63s(您可以通过计算Benford的频率来做到这一点:log(1 + 1/63)为您提供接近0%的值)。因此,您将Benford用于前三个数字。到您发现的时候,出现了太多的632(或者通过计算本福德频率的任何东西:log(1 + 1/632)),超出了您的预期。并非所有异常都是欺诈。但,
如果马克·豪瑟(Marc Hauser)处理的数据集是自然的无约束数据,且相关范围足够广泛,那么本福德定律将是一个非常好的诊断工具。我相信还有其他好的诊断工具也可以检测出不太可能的模式,并且将它们与本福德定律结合使用,您很有可能有效地研究了马克·豪瑟事件(考虑到本福德定律提到的数据要求)。
在这个简短的演示中,我将进一步解释本福德定律,您可以在此处查看:http :
//www.slideshare.net/gaetanlion/benfords-law-4669483