衡量工作日内分布的均匀性


11

我有一个与此问题类似的问题:

如何测量分布的不均匀性?

我在一周中的每一天都有一组概率分布。我想测量每个分布与(1 / 7,1 / 7,...,1/7)的接近程度。

目前,我正在使用上述问题的答案;L2-范数,当分布在一天中的某一天质量为1时,值为1,对于(1 / 7,1 / 7,...,1/7)最小。我线性缩放它,使其在0到1之间,然后将其翻转,使0表示完全不均匀,而1表示完全均匀。

这很好用,但是我有一个问题。它将每个工作日均视为7维空间中的一个维度,因此不考虑天数的接近性;换句话说,即使(1 / 2,1 / 2,0,0,0,0,0)和(1 / 2,0,0,1 / 2,0,0,0)的得分相同尽管从某种意义上说,后者更“分散”和统一,理想情况下应该获得更高的分数。显然增加了复杂性,即天的顺序是循环的。

我该如何改变这种启发式方法来考虑天的临近?


1
您的(1 / 2,1 / 2,0,0,0,0,0)和(1 / 2,0,0,1 / 2,0,0,0)的示例以相同的方式不一致,因此只要您只想测试不均匀性就没有关系。因此,也许您想测试您的问题中未明确说明的其他内容?顺便说一句, 是衡量均匀性的标准。
蒂姆

谢谢蒂姆,我已经尝试过使用熵,但是我发现上面提到的启发式方法可以更好地达到我的目的。我不知道该怎么称呼我感兴趣的工作日内概率分布的属性,只是它应该封装一周内概率的“扩展范围”。
EBartrum

Answers:


15

推土机距离,也被称为瓦瑟斯坦度量,测量两个直方图之间的距离。从本质上讲,它会将一个直方图视为大量的污垢,然后评估一个直方图需要移动多少污垢以及将这个直方图转换成另一个直方图的距离(!)。您将在一周中的某一天测量分布与均匀分布之间的距离。

这当然可以解释几天的临近-从星期一到星期二移动“污垢”要比星期一到星期四容易,因此(1 / 2,0,0,1 / 2,0,0,0)会有一个与均匀分布的直方图相比,周一到周二的推土机距离均匀分布的距离要小。

不是考虑周的“循环性”,即星期六和星期日与星期日和星期一一样紧密。为此,您需要查找圆形概率质量分布上定义的推土机距离。使用适当的优化方法应该可以做到这一点。


编辑:在R中,emd程序包计算直方图之间的推土机距离。

您可以用一种非常简单(尽管是临时的)的方式解决“循环性”问题。

  • 计算您的分布与星期一至星期日的均匀分布之间的距离。d1
  • 根据周二至周一的均匀分布计算距离。d2
  • 根据周三至周二的均匀分布计算距离。d3
  • ...
  • 最后,使用的均值作为最终距离。d1,,d7

这样可以照顾圆度,但要花费一些额外的计算。

第二编辑:这不是圆形的推土机距离。为此,您需要浏览一些可能会出现搜索的文献。如果以天之间移动灰尘的最佳方式涉及到两个天从星期六移动它到星期一,这将在五个出七个显示,但不是在剩下的两个(其中污垢会需要移动5天)。di

但是,我仍然认为这是一种至少以某种方式考虑圆度的潜在有用方法-肯定比仅使用单个直方图并将周定义为从星期日到星期六或以其他任意方式更好。另外,尽管上面的某些链接列出了圆形推土机距离的实现,但我不知道R的实现,R可能是这里使用最多的语言。


3
起初,我认为后面的示例()是如何计算圆形距离的示例,并且感到困惑(因为结果可能大于)。然后我意识到这个答案并不意味着任何地方。我不知道其他人是否像我一样阅读此答案,但是最好清楚地说明该示例不是圆形推土机距离。d id1,,d7di
JiK

@JiK:好点,昨天我失去连接后,我也想到了这一点。我澄清了我的答案,以强调这是一个hack,而不是真正的圆形推土机距离。
Stephan Kolassa,2015年

1
非常感谢,实际上,我确实通过定义自己的距离函数,使用emd包和emd2d函数在R中实现了一个圆形的推土机距离,因此不需要使用您提到的技巧。这正是我想要的!另一个琐事:我应该怎么称呼它?正如Tim所说,我不应该称这种统一性。这种启发式的合适名称是什么?
2015年

1
好吧,您正在测试一致性,因此该术语应该很好。Tim争论的是您要评估的均匀性有哪些具体偏离,因此您可能正在寻找比“ 均匀性” 更精确的术语。正如您所讨论的,您并不是在寻找距离的偏离,而是在EMD的意义上寻找偏离。我没有好名字叫那个孩子。也许您只想在自己的散文中散布“ EMD”。“发行版A的EMD不一致程度高于B。” “ A比B与EMD的距离更远。不过听起来并不富有诗意。抱歉。L2
Stephan Kolassa,2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.