如何将数值数据分组为自然形成的“括号”？（例如收入）

以下内容描述了我要完成的工作，但是有可能使用其他问题说明来描述我的目标：

我想要

将以下数字分为几组，其中每组中数字的方差不会太大，并且各组平均值之间的差异也不会太小
将最终获得的分布与“完美”分布进行比较，并观察其与完美度有何“不同”。

莱曼对目标的解释

我正在尝试计算收入分配，并确定每个人口所在的“收入等级”。收入等级应该根据输入数据进行自我调整。

我的目标是最终衡量或计算收入等级之间的差异。我假设会有很多括号，并希望了解每个层之间的“距离”。

这是一个人口总数为20，总收入为3587的样本集的每小时收入样本：

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900

我如何使用数学概念对数据进行分组，分类和分析，这些数据的作用类似于给定人口的收入分配？

在计算的最后，我要确定收入的分层分配，在这种情况下，理想的分配看起来像这样

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

或这个：

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269

题

我应该如何分析人口群体，并以一种能告诉我使之更像上面列出的最后两个模型集的方式来衡量差距？

clustering relative-distribution

— goodguys_activate
source

感谢@svidgen的建议而不是Programmers.SE

— goodguys_activate 2013年

注意：我在询问以下问题时收到了此反馈：

It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.

— goodguys_activate 2013年

我似乎发现了一些与我需要的东西非常相似的东西……称为分箱数据：msdn.microsoft.com/en-us/magazine/dn342876.aspx

— goodguys_activate 2013年

是的，请迁移问题（并在可能的情况下在评论中提供更好的解释）。

— goodguys_activate

寻找收入分配差距，如果幸运的话，您可以找到（有些人为的）高峰，然后将其用作括号。对于较低的收入，这可能效果相对较好。

— 马克·克莱森

Answers:

只要存在可以沿其排列值的某个维度，就可以使用单个变量进行聚类分析。这可以是一个量表，时间或空间。

给定某种测量规模的有序数据，可能有兴趣在频率分布内寻找相对中断（反模态，用一种术语）。

注意事项：但是，在统计科学的多个领域中，广泛地避免了使用定义间隔的断点，这些间隔似乎是任意的，或者看起来似乎是任意的，并且广泛且明显地偏向于以相等的间隔进行分箱，并且经常尽可能地避免完全分箱。这部分是出于品味问题，部分是惯例：随着整个数据集的存储变得更加容易，实践发生了变化。

一时间系列可分为法术，时代，时期，什么的，最好有子系列中比较小的差异和子系列之间的比较大的差异。每当将单个空间维度（水平或垂直）细分时，对于空间也会出现相同的问题。在地质学和其他科学中，这通常在分区的标题下进行研究。

请注意，任何形式的聚类都应始终伴随有适当的数据绘制（例如，使用点图或分位数或线图），这确实可以明确表明中断是显而易见的（因此形式聚类仅是装饰性的）或没有令人信服的突破（因此正式的聚类可能毫无意义）。

考虑一个玩具示例，该示例按幅度排序：

    14 15 16 23 24 25 56 57 58

很明显，三组聚类

    14 15 16 | 23 24 25 | 56 57 58

$k$ $n$ $k - 1$ $k - 1 = 2$ $n - 1$ $n - 1 \choose k - 1$ $k$ $2^{n - 1}$ $n$

通过在给定数量的组中最小化标记，可以使问题更精确（Fisher 1958； Hartigan 1975）。

组中心周围的各组变异之和 。

$\text{sum over groups of variability around group centres}.$

最明显的可能性就是与组均值的平方偏差之和。与组中位数的绝对偏差之和以及其他度量，可能会很有趣。

Hartigan（1975）展示了动态编程方法如何使这种计算简单明了，并介绍了Fortran代码。group1d从SSC安装Stata实施（Cox 2007）。

Cox，新泽西州，2007年。GROUP1D：用于在一维中分组或聚类的Stata模块。http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher，WD，1958年。关于最大同质性的分组。杂志，美国统计协会 53：789-98。

Hartigan，JA，1975年。聚类算法。 纽约：约翰·威利（John Wiley）。第6章

后记这种方法似乎与特定问题的第一部分匹配。我之所以提出这个建议，是因为我认为该提法具有一些普遍意义（并且因为我很容易回收Cox 2007的部分文档）。但是，如果具体目标是将收入分配与参考统一分配进行比较，则我认为分类根本没有任何作用。这是经济学的一个标准问题，洛伦兹曲线和不平等测度是起点。本质上，您可以将分位数与分位数或百分点与百分点进行比较。

— 尼克·考克斯
source

看看Jenks Natural Break：

https://zh.wikipedia.org/wiki/Jenks_natural_breaks_optimization

我认为这就是您所需要的，并且有许多语言的实现。

— 草莓
source

尽管可能不会立即显而易见，但这恰恰是尼克·考克斯（Nick Cox）的建议，即“与群体均值的平方偏差之和将成为最明显的可能性”。他比部分（我怀疑）更笼统，因为对于收入而言，这将是一个糟糕的解决方案：通常，以对数收入的方式进行计算通常会更好。

— ub