时间事件的长尾分布


10

假设您具有Web服务器的日志。在这些日志中,您具有以下类型的元组:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

这些时间戳表示例如用户的点击。现在,user1它将在一个月内多次访问该网站(会话),并且您在每个会话期间都会获得来自每个用户的点击次数激增(假设当用户访问您的网站时,他将点击多个页面)。

假设您希望在产生点击的会话中对这些点击次数进行分区,但是您没有任何其他信息源,只有时间戳列表。如果您计算来自同一用户的两次点击之间的间隔分布,则将获得长尾分布。直观地,您会寻找一个“剪切参数”,例如N秒,如果为timestamp_{i+1} - timestamp{i} > N,则您timestamp_{i+1}是新会话的开始。

问题在于,这种分布实际上是两个变量的混合:X =“同一会话中两次随之而来的点击之间的间隔”和Y =“上一次会话的最后点击与新会话中的第一次单击之间的间隔”。

问题是,仅通过查看点击次数,如何估算这个N,即可将两个分布(可能会有些重叠)分开?


当您说“仅查看点击次数”时,是否表示您无法计算除N以外的任何值?
jerad 2012年

我的意思是,除了元组(用户,时间戳)之外,您没有其他任何信息来源。基于阈值的方法(基于增量> N)只是方法的示例。也许还有其他可能。
marcorossi 2012年

您可能对此线程感兴趣:适当的临时数据群集技术
gung-恢复莫妮卡

Answers:


2

您确实应该绘制点击间隔的对数而不是原始值。这将使您的发行版变得扁平,甚至可能揭示您发行版中的多种模式。

神经科学家已经开发出更先进的方法来解决在识别神经元突波爆发中非常相似的问题。这篇经典论文或有关Google Scholar的许多其他相关论文。


我确实打印了分发的日志。这是一条平线。那有什么帮助呢?你会看什么?谢谢,本文的参考文献很棒。
marcorossi 2012年

那么对数概率图呢?即只记录频率,而不记录间隔。这揭示了两种模式吗?
jerad 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.