为什么年龄中位数比平均年龄更好?


41

替代文字

替代文字

显然,就年龄而言,中位数似乎是选择的统计数据。

我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢?

最初发布在这里是因为我不知道该网站的存在。


4
您似乎已经在其他网站上找到了合理的答案?
Shane 2010年

1
@Shane:但是也许不同的站点有可能从不同的角度获得不同的答案?
ub

Answers:


42

我认为,统计资料无法很好地回答这个问题。例如,平均数可能与死亡率研究相关,但年龄并不像您想象的那样容易测量。例如,老年人,文盲和某些第三世界国家的人倾向于将年龄四舍五入到5或10的倍数。

中位数比平均数更能抵抗此类错误。此外,中位年龄通常为20至40岁,但人们的寿命可以达到100岁以上(现代国家人口中越来越多而且明显的比例是生活在100岁以上)。与非常年轻的人相比,这种年龄的人对中位数的影响是对中位数的1.5到4倍。因此,中位数是有关国家年龄分布的最新统计数据,与死亡率和预期寿命相比,与平均值相比更不独立。

最后,中位数可以使我们更好地了解年龄分布本身:例如,当您看到中位数为35岁时,您就知道一半的人口年龄超过35岁,并且可以推断出一些有关出生率的信息,父母的年龄等等 但是如果平均值是35,您就不能这么说了,因为例如35岁可能受到70岁时人口膨胀的影响,或者可能是由于过时的战争或流行病在某个年龄范围内的人口差距。

因此,出于人口统计而非统计的原因,中位数似乎更值得总括价值用于概括相对较大人群的年龄。


1
我认为您的意思是“中位数比平均值更能抵抗此类错误”。不过,我同意您的意见,并且我相信美国人口普查通常会出于所有相同的原因在官方报告(不仅是年龄)中报告许多类别的中位数。收入也许是比年龄更好的例子来说明这一点。
安迪W

您已经用一个事实(均值对异常值/偏态分布敏感)代替了关于中位数优先于均值的值声明。实际上,您认为均值不是首选,因为它不是中位数(就像那些说仅在对称分布上使用均值,即当均值和中位数相等时)一样。
亚历克西斯

1
@Alexis我不听您的批评。您能详细说明一下吗?毕竟,这个答案所提供的远远不只是“事实”:它包含了很多答案,并对其含义进行了分析。特别是您指的是什么“价值声明”?
ub

我担心的是均值和中位数的事实特征(例如前者对异常值敏感,即“与非常年轻人相比,该年龄段的人对中位数的影响是对中位数的1.5到4倍。”)转化为关于他们的价值的价值观,即“中位数使我们对年龄分布本身的状况有了更好的了解”。前者是事实,后者是该事实的估值。我关心的是两者之间的切换。更多:stats.stackexchange.com/questions/96371/…–
Alexis

1
@Alexis请记住,这个问题通常不是关于平均值或中位数的使用,而是关于它们在评估年龄分布方面的效用请注意,从一开始我的回答就承认没有万能药:平均数对特定目的有用且有意义我不认为您犯了我所指控的罪过,这是“更好”的含糊用法:我已经仔细规定中位数和均值在此情况下的差异。在我看来,您可能需要讨论均值中位数的问题,但这不是解决问题的地方。
ub

16

约翰在姐妹网站上给了您很好的答案。

他没有明确提及的一个方面是稳健性:中位数作为中心位置的度量要比平均值更好,因为它具有较高的细分点(50%),而平均值却只有0之一(请参见Wikipedia) )。

从直觉上讲,这意味着个别不良观察不会使中位数偏斜,而它们会影响均值。


9
对于整个人口的描述性统计而言,分类不是问题。
ub

12

这是我的答案首先发布在math.stackexchange上:

中位数是许多人说“平均”时实际想到的。中位数更容易解释:一半的人口高于该年龄段,一半的人口低于该年龄段。平均值稍微有些微妙。

人们寻找对称性,有时不对称就强加对称性。人口中的年龄分布远非对称,因此均值可能会产生误导。年龄分布有点像金字塔。孩子很多,老人很多。(或者至少是这样的一种稳定状态。在美国,第二次世界大战后婴儿潮时代的一代人随着年龄的增长扭曲了这种分布。有人称这种情况为“金字塔金字塔”,因为婴儿潮一代已经制造了金字塔的顶部比过去宽。)

对于非对称分布,可能最好报告中位数,因为它是对称统计量。即使采样分布不均匀,中位数也是对称的。


在什么意义上中位数是“对称”统计量?分布趋于围绕其中位数对称分布(也不关于均值)肯定不是这种情况。如果您只是想在另一条评论中写到“中位数将人口减少一半”(定义中位数),则您的论点听起来像是循环的:中位数是好的,因为中位数就是中位数!
ub

7

为什么斧头比斧头好?

这类似于您的问题。他们只是刻薄,做不同的事情。如果人们在谈论中位数,那么他们试图传达的故事,他们试图应用于数据的模型就不同于有经济能力的模型。


4

举一个具体的例子,考虑刚果(金)和日本的平均年龄。一个因内战而遭受重创,另一个因人口老龄化而发展良好。对于苹果与苹果的比较而言,平均值并不十分有趣。另一方面,中位数可以作为衡量中心趋势的信息,因为根据定义,中位数有一半以上,一半以下。维基百科上有关“ 人口金字塔”的文章可能很有启发性(请参阅有关年轻人膨胀,人口老龄化的部分)。


3

由于HIPAA法规对出于个人隐私原因而故意对数据进行屏蔽和掩盖的HIPAA法规的影响,美国的Public Health Data资料库正朝着以5年递增的年份格式的AGE迈进。

鉴于对过去的挑战(在HIPAA之前),基于出生日期和死亡日期之间的差异,相当规模的度量数据元素存在水平,我们可能需要重新考虑AGE作为可以在公共卫生数据集中以参数形式进行描述,而推荐使用以非参数方式描述AGE的模型作为有序的度量标准。我知道,对于生物医学信息学界的许多派别来说,这似乎是“头上大事”,但是如上面的评论中所述,这种想法在“解释”方面可能有一些优点。

非参数方法可用的所有分析能力如何?是的,的确,我们每个人几乎都将尝试将GLM(通用​​线性模型)技术应用于一个变量,该变量以与AGE相同的方式向我们展示。

同时,必须考虑该分布的形状以及如何通过多维相互作用对分布中存在的多维质心和子组质心确定形状。如何处理这些非常复杂的数据集?

当数据元素不能满足“模型的假设”时,我们会逐步扫描(我说过,不是向下;我们应该是方法的机会均等的雇主,每个工具都来自工厂,形式遵循功能规则)其他可能的模型,以找到那些“不失败”的假设测试。

以公共卫生数据集的当前格式,我们确实确实需要(作为数据可视化社区)提出一个更标准的模型,以五年为增量(5YI)处理AGE。我对AGE(使用新的5YI格式)进行数据可视化的投票是使用直方图以及箱形图和晶须图。是的,这意味着中位数。(没有双关语!)

有时一张图片真的值一千个单词,而摘要则是一千个单词的摘要。箱须图显示了分布的“形状”,作为直方图的有意义的符号表示,几乎达到了标志性的分辨率。通过显示“并排”框和晶须图来比较五年年龄增量的分布,可以立即在视觉上比较第75位至第50位(中位数)与较低的25位Ntile的模式,这将成为比较AGE的优雅“通用标准”世界。对于那些继续通过表格显示的文本机制享受数据表示快感的人来说,“茎和叶”图在“火花线”中用作动画视觉图形元素时也可能有用。

年龄已经成熟。现在需要使用更强大的计算算法来进一步探索它。


1
这是一篇写得很好的文章,但似乎与原始问题没有任何联系。
安迪W

我认为它间接但适当地解决了问题的明显意图,即@Andy。错误(如果有的话)在于问题本身,这是模棱两可的,因为它没有指定均值可能比中位数“差”的含义。因此,一个好的答案必须探索这一点,并考虑用单个统计数据总结年龄分布的目的。在这里,自然而然地引起了关于“年龄”可能意味着什么以及如何恰当地比较年龄分布的讨论。
ub

3

我认为没有很好的描述性理由选择年龄分布的中位数而不是均值。比较报告数据是一种实用性。

许多国家/地区以5岁年龄段为单位报告其人口,最高年龄段是无限制的。这会造成一些困难,难以根据区间计算平均值,尤其是对于最小的区间(受婴儿死亡率影响),最高的“区间”(80+“区间”的平均值是多少?)和接近最高的区间(每个间隔的平均值通常低于中间值)。

通过在中值区间内插值来估计中值要容易得多,通常通过假设该区间内的年龄分布平坦或梯形来近似(许多国家的死亡率在中值年龄附近相对较低,因此比中值年龄更合理)是针对年轻人还是老年人)。


3

要提供有用的答案,原始问题需要我们知道问题背后的问题。换句话说,“为什么要使用某种汇总统计数据来比较不同国家的年龄分布?” 中位数对于某些问题可能是最有用的。平均值可能对其他人最有用。可能存在一些问题,其中“特定年龄以上(或以下)的百分比”是最有用的统计数据。


2

您在这里得到了很好的答案,但让我加2美分。我从事药理学方面的工作,涉及血容量,消除率,药物作用的基础水平,最大药物作用以及诸如此类的参数。

我们对可以采用任何正负值的变量与只能为正值的变量进行区分。可以采用正负任何值的变量的一个示例是药物效应,它可以是正值,零值或负值。只能实际为正的变量的示例是血液量或药物清除率。

我们使用通常为正态或对数正态分布,对任何值的正态分布以及对正值对数的正态分布进行建模。对数正态数是将E乘以正态分布数的乘方,这就是为什么它只能为正数的原因。

对于正态分布的变量,中位数,均值和众数是相同的数字,因此使用哪个都无关紧要。但是,对于对数正态分布的变量,平均值大于中位数和众数,因此它并不是很有用。实际上,中位数是基本法线具有均值的位置,因此它是一种更具吸引力的度量。

由于年龄(大概)永远不会为负,因此对数正态分布可能比正态分布更好地描述了它,因此中位数(E等于基本正态分布的平均值)更为有用。


5
年龄分布肯定不是对数正态分布。
罗伯·海恩德曼

1
我认为您不能仅仅根据年龄为正数来推断年龄呈对数正态分布。伽玛和威布尔分布也总是正的,那么为什么不选择那些呢?
nico 2010年

@Rob:@nico:我确定你是对的。这是一个糟糕的榜样选择。通常,我们对药理参数进行建模,例如体积和清除率。
Mike Dunlavey 2010年

2

我被告知,中值应与范围和均值一起使用,并应使用标准偏差。当我们谈论年龄时,我认为范围是一种更广泛的表达方式,对于大多数人来说更容易理解。例如,在研究人群中,平均年龄为53岁(标准差5.4)或中位年龄为48岁(范围23-77)。因此,我宁愿使用中位数而不是均值。但是,我将对统计学家或统计学专业人士对使用均值和范围会说些什么感到非常感兴趣?我在科学论文中看到了很多。


欢迎来到简历,苏珊。如果您已发布此帖子以获取答案,请删除它,然后将其重新发布为新问题。帮助中心提供了有关如何使用本网站的指南。
ub

1

约翰对math.stackexchange的回答可以看成如下:

当分布偏斜时,中位数可能比平均值更好。

请注意,当他说婴儿比成人多时,他实质上是在暗示年龄分布是偏态分布。


实际上,我认为当今许多国家的偏向更多地转向老年人,而不是小孩。
JM不是统计学家

也许,它是相反的偏斜,但总的观点是正确的。对于偏态分布,中位数可能比均值更有意义。

我刚刚更新了math.stackexchange的答案以强调这一点。人们寻找对称性,并且当对称性不存在时会错误地施加对称性。当您报告中位数时,您给出的答案是对称的-即使分布不是对称的,中位数也会将总体分成两半。
John D. Cook 2010年

这个答案在我看来总是有些虚假:当分布不偏斜(即它们是对称的)时,均值等于中位数,因此说分布偏斜时,中位数“更好”是“仅使用”的后门方式。中位数。”
亚历克西斯

1

我希望平均年龄会受到数据集中异常值的影响,而中位数年龄并非如此。让我们以疫苗接种患者的数据集为例:1,2,3,4,4,5,6,6,6,78岁,平均为:11.5,这些患者的中位年龄为4.5。该平均年龄受到异常值78的影响。中位数在处理偏态分布的数据集时是最好的。


请参阅我对User28的回复。
亚历克西斯

0

当然,就人口统计分析而言,如果您正在寻找离群值或仅由中位数贴错标签的增长区域,则我认为均值和中位数都将是有价值的,尤其是相互结合时。在退休社区较大的社区或出生率爆炸的地区,单靠中位数可能无法为您提供全部信息,而相比之下,均值可能会非常有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.