网站的唯一身份访问者是否遵守幂律？

假设我有一个有序向量，其中第一个元素是在给定时间内访问量最高的唯一IP对该网站的访问次数，第二个元素是该唯一IP所访问的网站的访问次数，第二个元素是访问次数最多，依此类推。我了解每个站点可能会有变化，但是总体上该矢量的形状是否存在假定的模式？例如，它是否遵循幂律分布？

web power-law

— 乔恩·斯马克
source

由于动态寻址和各种其他问题（例如，使用多台计算机的人），IP不会特别适合人们。如果我想检验这个假设，我可能会使用访客ID而不是IP地址。

— richiemorrisroe 2012年

不可以，网站的唯一身份访问者不会遵守幂律。

在过去的几年中，对权力法主张的测试越来越严格（例如Clauset，Shalizi和Newman 2009）。显然，过去的声明通常没有得到很好的测试，通常以对数-对数比例绘制数据并依靠“眼球测试”来证明一条直线。现在正式测试更加普遍，许多发行版都证明不遵循幂律。

我知道可以检查用户在网络上访问的最好的两个参考文献是Ali和Scarr（2007）和Clauset，Shalizi和Newman（2009）。

Ali和Scarr（2007）研究了Yahoo网站上用户点击的随机样本，得出的结论是：

普遍的看法是，网页点击和网页浏览量的分布遵循无标度的幂定律分布。但是，我们发现，对数据有统计学上显着更好的描述是对比例敏感的Zipf-Mandelbrot分布，并且其混合物进一步增强了拟合度。以前的分析有三个缺点：他们使用了一小组候选分布，分析了过时的用户网络行为（大约1998年），并使用了可疑的统计方法。尽管我们不能排除可能没有一天能找到更好的拟合分布，但可以肯定地说，对比例敏感的Zipf-Mandelbrot分布比无比例幂律或Zipf在统计上更强地拟合数据来自Yahoo领域的各种垂直行业。

这是一个月内单个用户点击的直方图，其对数-对数图上的相同数据，以及他们比较的不同模型。数据显然不在无标度配电所期望的对数直线上。

来自Ali和Scarr的图2和图4

Clauset，Shalizi和Newman（2009）使用似然比检验将幂律解释与替代假设进行了比较，并得出了Web点击和链接“不能合理地视为遵循幂律的结论”。前者的数据是一天之内美国在线互联网服务客户的网络访问量，而后者的数据是指向1997年约2亿个网页的网络爬虫中找到的网站的链接。下图给出了累积分布函数P（x）及其最大似然幂律拟合。

在此处输入图片说明

对于这两个数据集，Clauset，Shalizi和Newman发现，具有指数cuto的功率分布可以修改分布的极端尾部，明显优于纯幂律分布，对数正态分布也很合适。（他们还研究了指数假设和扩展的指数假设。）

如果您手头有一个数据集并且不只是好奇，则应将其与其他模型拟合并进行比较（在R中：pchisq（2 *（logLik（model1）-logLik（model2））），df = 1，较低。尾= FALSE））。我承认我不知道如何为零调整的ZM模型建模。罗恩·皮尔森（Ron Pearson）发布了有关ZM发行版的博客，显然有一个R包zipfR。我，我可能会从否定的二项式模型开始，但是我不是真正的统计学家（我很喜欢他们的观点）。

（我还想在上面的第二个评论者@richiemorrisroe指出数据很可能受到与个人行为无关的因素的影响，例如程序爬网和代表许多人计算机的IP地址。）

提到的论文：

— 马特·巴格
source

@MattBag，看起来很有趣，将在这种情况下尝试此操作stats.stackexchange.com/q/41286/13201

— FredrikD 2012年