网站的唯一身份访问者是否遵守幂律?


14

假设我有一个有序向量,其中第一个元素是在给定时间内访问量最高的唯一IP对该网站的访问次数,第二个元素是该唯一IP所访问的网站的访问次数,第二个元素是访问次数最多,依此类推。我了解每个站点可能会有变化,但是总体上该矢量的形状是否存在假定的模式?例如,它是否遵循幂律分布?


6
由于动态寻址和各种其他问题(例如,使用多台计算机的人),IP不会特别适合人们。如果我想检验这个假设,我可能会使用访客ID而不是IP地址。
richiemorrisroe 2012年

Answers:


23

不可以,网站的唯一身份访问者不会遵守幂律。

在过去的几年中,对权力法主张的测试越来越严格(例如Clauset,Shalizi和Newman 2009)。显然,过去的声明通常没有得到很好的测试,通常以对数-对数比例绘制数据并依靠“眼球测试”来证明一条直线。现在正式测试更加普遍,许多发行版都证明不遵循幂律。

我知道可以检查用户在网络上访问的最好的两个参考文献是Ali和Scarr(2007)和Clauset,Shalizi和Newman(2009)。

Ali和Scarr(2007)研究了Yahoo网站上用户点击的随机样本,得出的结论是:

普遍的看法是,网页点击和网页浏览量的分布遵循无标度的幂定律分布。但是,我们发现,对数据有统计学上显着更好的描述是对比例敏感的Zipf-Mandelbrot分布,并且其混合物进一步增强了拟合度。以前的分析有三个缺点:他们使用了一小组候选分布,分析了过时的用户网络行为(大约1998年),并使用了可疑的统计方法。尽管我们不能排除可能没有一天能找到更好的拟合分布,但可以肯定地说,对比例敏感的Zipf-Mandelbrot分布比无比例幂律或Zipf在统计上更强地拟合数据来自Yahoo领域的各种垂直行业。

这是一个月内单个用户点击的直方图,其对数-对数图上的相同数据,以及他们比较的不同模型。数据显然不在无标度配电所期望的对数直线上。

来自Ali和Scarr的图2和图4

Clauset,Shalizi和Newman(2009)使用似然比检验将幂律解释与替代假设进行了比较,并得出了Web点击和链接“不能合理地视为遵循幂律的结论”。前者的数据是一天之内美国在线互联网服务客户的网络访问量,而后者的数据是指向1997年约2亿个网页的网络爬虫中找到的网站的链接。下图给出了累积分布函数P(x)及其最大似然幂律拟合。

在此处输入图片说明

对于这两个数据集,Clauset,Shalizi和Newman发现,具有指数cuto的功率分布可以修改分布的极端尾部,明显优于纯幂律分布,对数正态分布也很合适。(他们还研究了指数假设和扩展的指数假设。)

如果您手头有一个数据集并且不只是好奇,则应将其与其他模型拟合并进行比较(在R中:pchisq(2 *(logLik(model1)-logLik(model2))),df = 1,较低。尾= FALSE))。我承认我不知道如何为零调整的ZM模型建模。罗恩·皮尔森(Ron Pearson)发布了有关ZM发行版的博客,显然有一个R包zipfR。我,我可能会从否定的二项式模型开始,但是我不是真正的统计学家(我很喜欢他们的观点)。

(我还想在上面的第二个评论者@richiemorrisroe指出数据很可能受到与个人行为无关的因素的影响,例如程序爬网和代表许多人计算机的IP地址。)

提到的论文:


@MattBag,看起来很有趣,将在这种情况下尝试此操作stats.stackexchange.com/q/41286/13201
FredrikD 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.