有几个摘要统计信息。当您要描述分布的分布时,可以使用例如标准差或基尼系数。
我知道标准偏差是基于中心趋势,即与均值的偏差,基尼系数是色散的一般度量。我也知道,基尼系数具有上限和下限[0 1],而标准偏差则没有。这些属性是很好知道的,但是标准偏差可以提供哪些见解,使基尼无法做到,反之亦然?如果我不得不选择使用两者之一,那么在提供信息和洞察力方面,与另一种相比使用一种优势是什么?
有几个摘要统计信息。当您要描述分布的分布时,可以使用例如标准差或基尼系数。
我知道标准偏差是基于中心趋势,即与均值的偏差,基尼系数是色散的一般度量。我也知道,基尼系数具有上限和下限[0 1],而标准偏差则没有。这些属性是很好知道的,但是标准偏差可以提供哪些见解,使基尼无法做到,反之亦然?如果我不得不选择使用两者之一,那么在提供信息和洞察力方面,与另一种相比使用一种优势是什么?
Answers:
要考虑的两件事
基尼(Gini)与规模无关,而标清(SD)以原始单位
假设我们有一个上下限。如果在每个界限处进行一半测量,则SD会取其最大值,而在一个界限处,Gini取最大值是一个,而在另一个界限处,所有其余取值。
基尼系数在比例上是不变的,并且是有界的,标准偏差对于位移是不变的,并且是无界的,因此很难直接进行比较。现在,您可以通过除以均值(变异系数)来定义标准偏差的标度不变版本。
但是,基尼系数仍然基于值,第二个基数基于平方值,因此可以预期,第二个基数将受到异常值(过低或过高)的影响更大。这可以在收入不平等测度(F De Maio,2007年)中找到:
收入不平等的衡量标准是通过将收入分配的标准偏差除以其平均值来计算的。收入分配越平等,标准差就越小;因此,在更加平等的社会中,简历的规模会缩小。尽管CV是最简单的不平等衡量标准之一,但在公共卫生文献中使用CV一直相当有限,并且在收入不平等假说的研究中也没有出现。这可能归因于CV度量的重要局限性:(1)与基尼系数不同,它没有上限18,这使得解释和比较更加困难;(2)CV的两个组成部分(均值和标准差)可能受到异常高或低的收入值的极大影响。换一种说法,
因此,除非要刻画几乎高斯分布的特征,否则如果要测量稀疏度,请使用基尼系数,如果要在不同模型之间提升稀疏度,则可以尝试这样的范数比。
附加讲座:Gini的均值差:非正态分布变异性的一种高级度量,Shlomo Yitzhaki,2003年,其摘要可能引起人们的兴趣:
在所有变异性度量中,变异是最流行的。本文认为,基尼的均值差(GMD)是一种可变性的替代指标,它具有许多具有方差的属性,但可以提供更多有关偏离正态分布的属性的信息