- 如果您看Wolfram Alpha
- 或此Wikipedia页面按中位年龄划分的国家列表
显然,就年龄而言,中位数似乎是选择的统计数据。
我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢?
最初发布在这里是因为我不知道该网站的存在。
显然,就年龄而言,中位数似乎是选择的统计数据。
我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢?
最初发布在这里是因为我不知道该网站的存在。
Answers:
我认为,统计资料无法很好地回答这个问题。例如,平均数可能与死亡率研究相关,但年龄并不像您想象的那样容易测量。例如,老年人,文盲和某些第三世界国家的人倾向于将年龄四舍五入到5或10的倍数。
中位数比平均数更能抵抗此类错误。此外,中位年龄通常为20至40岁,但人们的寿命可以达到100岁以上(现代国家人口中越来越多而且明显的比例是生活在100岁以上)。与非常年轻的人相比,这种年龄的人对中位数的影响是对中位数的1.5到4倍。因此,中位数是有关国家年龄分布的最新统计数据,与死亡率和预期寿命相比,与平均值相比更不独立。
最后,中位数可以使我们更好地了解年龄分布本身:例如,当您看到中位数为35岁时,您就知道一半的人口年龄超过35岁,并且可以推断出一些有关出生率的信息,父母的年龄等等 但是如果平均值是35,您就不能这么说了,因为例如35岁可能受到70岁时人口膨胀的影响,或者可能是由于过时的战争或流行病在某个年龄范围内的人口差距。
因此,出于人口统计而非统计的原因,中位数似乎更值得总括价值用于概括相对较大人群的年龄。
这是我的答案首先发布在math.stackexchange上:
中位数是许多人说“平均”时实际想到的。中位数更容易解释:一半的人口高于该年龄段,一半的人口低于该年龄段。平均值稍微有些微妙。
人们寻找对称性,有时不对称就强加对称性。人口中的年龄分布远非对称,因此均值可能会产生误导。年龄分布有点像金字塔。孩子很多,老人很多。(或者至少是这样的一种稳定状态。在美国,第二次世界大战后婴儿潮时代的一代人随着年龄的增长扭曲了这种分布。有人称这种情况为“金字塔金字塔”,因为婴儿潮一代已经制造了金字塔的顶部比过去宽。)
对于非对称分布,可能最好报告中位数,因为它是对称统计量。即使采样分布不均匀,中位数也是对称的。
由于HIPAA法规对出于个人隐私原因而故意对数据进行屏蔽和掩盖的HIPAA法规的影响,美国的Public Health Data资料库正朝着以5年递增的年份格式的AGE迈进。
鉴于对过去的挑战(在HIPAA之前),基于出生日期和死亡日期之间的差异,相当规模的度量数据元素存在水平,我们可能需要重新考虑AGE作为可以在公共卫生数据集中以参数形式进行描述,而推荐使用以非参数方式描述AGE的模型作为有序的度量标准。我知道,对于生物医学信息学界的许多派别来说,这似乎是“头上大事”,但是如上面的评论中所述,这种想法在“解释”方面可能有一些优点。
非参数方法可用的所有分析能力如何?是的,的确,我们每个人几乎都将尝试将GLM(通用线性模型)技术应用于一个变量,该变量以与AGE相同的方式向我们展示。
同时,必须考虑该分布的形状以及如何通过多维相互作用对分布中存在的多维质心和子组质心确定形状。如何处理这些非常复杂的数据集?
当数据元素不能满足“模型的假设”时,我们会逐步扫描(我说过,不是向下;我们应该是方法的机会均等的雇主,每个工具都来自工厂,形式遵循功能规则)其他可能的模型,以找到那些“不失败”的假设测试。
以公共卫生数据集的当前格式,我们确实确实需要(作为数据可视化社区)提出一个更标准的模型,以五年为增量(5YI)处理AGE。我对AGE(使用新的5YI格式)进行数据可视化的投票是使用直方图以及箱形图和晶须图。是的,这意味着中位数。(没有双关语!)
有时一张图片真的值一千个单词,而摘要则是一千个单词的摘要。箱须图显示了分布的“形状”,作为直方图的有意义的符号表示,几乎达到了标志性的分辨率。通过显示“并排”框和晶须图来比较五年年龄增量的分布,可以立即在视觉上比较第75位至第50位(中位数)与较低的25位Ntile的模式,这将成为比较AGE的优雅“通用标准”世界。对于那些继续通过表格显示的文本机制享受数据表示快感的人来说,“茎和叶”图在“火花线”中用作动画视觉图形元素时也可能有用。
年龄已经成熟。现在需要使用更强大的计算算法来进一步探索它。
您在这里得到了很好的答案,但让我加2美分。我从事药理学方面的工作,涉及血容量,消除率,药物作用的基础水平,最大药物作用以及诸如此类的参数。
我们对可以采用任何正负值的变量与只能为正值的变量进行区分。可以采用正负任何值的变量的一个示例是药物效应,它可以是正值,零值或负值。只能实际为正的变量的示例是血液量或药物清除率。
我们使用通常为正态或对数正态分布,对任何值的正态分布以及对正值对数的正态分布进行建模。对数正态数是将E乘以正态分布数的乘方,这就是为什么它只能为正数的原因。
对于正态分布的变量,中位数,均值和众数是相同的数字,因此使用哪个都无关紧要。但是,对于对数正态分布的变量,平均值大于中位数和众数,因此它并不是很有用。实际上,中位数是基本法线具有均值的位置,因此它是一种更具吸引力的度量。
由于年龄(大概)永远不会为负,因此对数正态分布可能比正态分布更好地描述了它,因此中位数(E等于基本正态分布的平均值)更为有用。
约翰对math.stackexchange的回答可以看成如下:
当分布偏斜时,中位数可能比平均值更好。
请注意,当他说婴儿比成人多时,他实质上是在暗示年龄分布是偏态分布。