如何测量两个频率分布之间的统计“距离”?
我正在执行一个数据分析项目,其中涉及调查一年中网站的使用时间。我想做的是比较使用模式的“一致性”,例如,与每周使用1小时一次或每次使用10分钟一次的模式有多接近6每周次数。我知道可以计算的几件事: 香农熵:衡量结果中的“确定性”相差多少,即概率分布与均匀分布的相差多少? Kullback-Liebler散度:测量一个概率分布与另一个概率分布有多少不同 Jensen-Shannon散度:与KL 散度相似,但在返回有限值时更有用 Smirnov-Kolmogorov检验:一种用于确定连续随机变量的两个累积分布函数是否来自同一样本的检验。 卡方检验:一种拟合优度检验,用于确定频率分布与预期频率分布的差异程度。 我想做的是比较分布中实际使用时间(蓝色)与理想使用时间(橙色)的差异。这些分布是离散的,下面的版本被归一化为概率分布。横轴表示用户在网站上花费的时间(以分钟为单位);这已记录在一年中的每一天;如果用户根本没有上过网站,则该时间为零,但已从频率分布中删除。右边是累积分布函数。 我唯一的问题是,即使我可以使JS-divergence返回一个有限值,但当我查看不同的用户并将其使用分布与理想用户进行比较时,我得到的值几乎是相同的(因此这不是一个好方法。表示两者之间的差异)。同样,当归一化为概率分布而不是频率分布时,会丢失大量信息(例如,学生使用该平台50次,则应垂直缩放蓝色分布,以使长条的总长度等于50,并且橙色栏的高度应为50,而不是1)。我们所说的“一致性”的部分原因是用户访问网站的频率是否会影响他们从网站中获得多少收益;如果他们失去访问该网站的次数,那么比较概率分布就有点不确定了;即使用户持续时间的概率分布接近“理想”使用情况,该用户在一年中可能只使用了1周的平台,这可能不是很一致。 是否有比较完善的技术来比较两个频率分布并计算某种度量,以表征它们的相似度(或相异度)?