Answers:
不可以,网站的唯一身份访问者不会遵守幂律。
在过去的几年中,对权力法主张的测试越来越严格(例如Clauset,Shalizi和Newman 2009)。显然,过去的声明通常没有得到很好的测试,通常以对数-对数比例绘制数据并依靠“眼球测试”来证明一条直线。现在正式测试更加普遍,许多发行版都证明不遵循幂律。
我知道可以检查用户在网络上访问的最好的两个参考文献是Ali和Scarr(2007)和Clauset,Shalizi和Newman(2009)。
Ali和Scarr(2007)研究了Yahoo网站上用户点击的随机样本,得出的结论是:
普遍的看法是,网页点击和网页浏览量的分布遵循无标度的幂定律分布。但是,我们发现,对数据有统计学上显着更好的描述是对比例敏感的Zipf-Mandelbrot分布,并且其混合物进一步增强了拟合度。以前的分析有三个缺点:他们使用了一小组候选分布,分析了过时的用户网络行为(大约1998年),并使用了可疑的统计方法。尽管我们不能排除可能没有一天能找到更好的拟合分布,但可以肯定地说,对比例敏感的Zipf-Mandelbrot分布比无比例幂律或Zipf在统计上更强地拟合数据来自Yahoo领域的各种垂直行业。
这是一个月内单个用户点击的直方图,其对数-对数图上的相同数据,以及他们比较的不同模型。数据显然不在无标度配电所期望的对数直线上。
Clauset,Shalizi和Newman(2009)使用似然比检验将幂律解释与替代假设进行了比较,并得出了Web点击和链接“不能合理地视为遵循幂律的结论”。前者的数据是一天之内美国在线互联网服务客户的网络访问量,而后者的数据是指向1997年约2亿个网页的网络爬虫中找到的网站的链接。下图给出了累积分布函数P(x)及其最大似然幂律拟合。
对于这两个数据集,Clauset,Shalizi和Newman发现,具有指数cuto的功率分布可以修改分布的极端尾部,明显优于纯幂律分布,对数正态分布也很合适。(他们还研究了指数假设和扩展的指数假设。)
如果您手头有一个数据集并且不只是好奇,则应将其与其他模型拟合并进行比较(在R中:pchisq(2 *(logLik(model1)-logLik(model2))),df = 1,较低。尾= FALSE))。我承认我不知道如何为零调整的ZM模型建模。罗恩·皮尔森(Ron Pearson)发布了有关ZM发行版的博客,显然有一个R包zipfR。我,我可能会从否定的二项式模型开始,但是我不是真正的统计学家(我很喜欢他们的观点)。
(我还想在上面的第二个评论者@richiemorrisroe指出数据很可能受到与个人行为无关的因素的影响,例如程序爬网和代表许多人计算机的IP地址。)
提到的论文: