以下内容描述了我要完成的工作,但是有可能使用其他问题说明来描述我的目标:
我想要
将以下数字分为几组,其中每组中数字的方差不会太大,并且各组平均值之间的差异也不会太小
将最终获得的分布与“完美”分布进行比较,并观察其与完美度有何“不同”。
莱曼对目标的解释
我正在尝试计算收入分配,并确定每个人口所在的“收入等级”。收入等级应该根据输入数据进行自我调整。
我的目标是最终衡量或计算收入等级之间的差异。我假设会有很多括号,并希望了解每个层之间的“距离”。
这是一个人口总数为20,总收入为3587的样本集的每小时收入样本:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
我如何使用数学概念对数据进行分组,分类和分析,这些数据的作用类似于给定人口的收入分配?
在计算的最后,我要确定收入的分层分配,在这种情况下,理想的分配看起来像这样
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
或这个:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
题
我应该如何分析人口群体,并以一种能告诉我使之更像上面列出的最后两个模型集的方式来衡量差距?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.