假设您具有Web服务器的日志。在这些日志中,您具有以下类型的元组:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
这些时间戳表示例如用户的点击。现在,user1
它将在一个月内多次访问该网站(会话),并且您在每个会话期间都会获得来自每个用户的点击次数激增(假设当用户访问您的网站时,他将点击多个页面)。
假设您希望在产生点击的会话中对这些点击次数进行分区,但是您没有任何其他信息源,只有时间戳列表。如果您计算来自同一用户的两次点击之间的间隔分布,则将获得长尾分布。直观地,您会寻找一个“剪切参数”,例如N秒,如果为timestamp_{i+1} - timestamp{i} > N
,则您timestamp_{i+1}
是新会话的开始。
问题在于,这种分布实际上是两个变量的混合:X =“同一会话中两次随之而来的点击之间的间隔”和Y =“上一次会话的最后点击与新会话中的第一次单击之间的间隔”。
问题是,仅通过查看点击次数,如何估算这个N,即可将两个分布(可能会有些重叠)分开?
当您说“仅查看点击次数”时,是否表示您无法计算除N以外的任何值?
—
jerad 2012年
我的意思是,除了元组(用户,时间戳)之外,您没有其他任何信息来源。基于阈值的方法(基于增量> N)只是方法的示例。也许还有其他可能。
—
marcorossi 2012年
您可能对此线程感兴趣:适当的临时数据群集技术。
—
gung-恢复莫妮卡