如何测量两个频率分布之间的统计“距离”?


14

我正在执行一个数据分析项目,其中涉及调查一年中网站的使用时间。我想做的是比较使用模式的“一致性”,例如,与每周使用1小时一次或每次使用10分钟一次的模式有多接近6每周次数。我知道可以计算的几件事:

  • 香农熵:衡量结果中的“确定性”相差多少,即概率分布与均匀分布的相差多少?
  • Kullback-Liebler散度:测量一个概率分布与另一个概率分布有多少不同
  • Jensen-Shannon散度:与KL 散度相似,但在返回有限值时更有用
  • Smirnov-Kolmogorov检验:一种用于确定连续随机变量的两个累积分布函数是否来自同一样本的检验。
  • 卡方检验:一种拟合优度检验,用于确定频率分布与预期频率分布的差异程度。

我想做的是比较分布中实际使用时间(蓝色)与理想使用时间(橙色)的差异。这些分布是离散的,下面的版本被归一化为概率分布。横轴表示用户在网站上花费的时间(以分钟为单位);这已记录在一年中的每一天;如果用户根本没有上过网站,则该时间为零,但已从频率分布中删除。右边是累积分布函数。

网站使用情况数据与理想使用情况数据的分布

我唯一的问题是,即使我可以使JS-divergence返回一个有限值,但当我查看不同的用户并将其使用分布与理想用户进行比较时,我得到的值几乎是相同的(因此这不是一个好方法。表示两者之间的差异)。同样,当归一化为概率分布而不是频率分布时,会丢失大量信息(例如,学生使用该平台50次,则应垂直缩放蓝色分布,以使长条的总长度等于50,并且橙色栏的高度应为50,而不是1)。我们所说的“一致性”的部分原因是用户访问网站的频率是否会影响他们从网站中获得多少收益;如果他们失去访问该网站的次数,那么比较概率分布就有点不确定了;即使用户持续时间的概率分布接近“理想”使用情况,该用户在一年中可能只使用了1周的平台,这可能不是很一致。

是否有比较完善的技术来比较两个频率分布并计算某种度量,以表征它们的相似度(或相异度)?


4
您可能首先要问自己,损失函数是什么(也就是说,使用模式与理想不良有何区别,不良程度如何取决于存在何种差异),然后设计指标在那附近。
累积

Answers:


12

您可能对推土机的距离(也称为Wasserstein度量标准)感兴趣。它是用R(请emdist参见软件包)和Python来实现的。我们上面还有许多线程

EMD适用于连续分布和离散分布。emdistR 的软件包适用于离散分布。

优于统计信息的优点在于,EMD产生可解释的结果。将您的分布图想象成土堆,然后EMD会告诉您将一个分布图转换成另一个分布图需要多远的距离。χ2

换句话说,两个分布(1,0,0)和(0,1,0)应该比(1,0,0)和(0,0,1)“更相似”。EMD将识别出这一点,并为第一对分配比第二对更小的距离。该统计将相同的距离分配给两对,因为它没有在分配的条目排序的概念。χ2


为什么要这样的距离?它似乎是为任何连续分发而设计的。OP具有频率分布,那么为什么不使用更大的“离散”距离(例如卡方)呢?
user2974951

@ user2974951:足够公平。看到我的编辑。
斯蒂芬·科拉萨

大号p

大号p

3

如果您从两个分布中的每个分布中随机抽取一个个体,则可以计算它们之间的差异。如果您多次重复此操作(并进行替换),则可以生成差异分布,其中包含您要获取的所有信息。您可以绘制此分布并使用所需的任何摘要统计量(例如均值,中位数等)对其进行表征。


1
这样的程序有名称吗?
user2974951

4
我不知道如何解释一个基线事实,即任意分布的差异分布及其本身对于不同的任意分布将有所不同;认为U(0,1)vs.本身与N(0,1)vs.本身 因此,如果没有唯一的基线,则很难比较两个不同分布的差异分布。如果观察值配对,问题将消失,基线将是零的单位质量。
理查德·哈迪

@ user2974951我敢肯定有,因为它非常简单,并且与引导程序明显相关。但是我不知道该怎么称呼它。
mkt-恢复莫妮卡

1
@mkt,感谢您的澄清。我不打算仅仅为了这个目的而争论,我仍然认为,没有唯一的基线,我们就没有尺子。但是,我会保留它。无论如何,您的想法有些不错。
理查德·哈迪

1
@RichardHardy我很感谢在这里的交流,您可能是对的。我将不得不进一步考虑。
mkt-恢复莫妮卡

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.