如何确定图的y轴是否应从零开始?


45

一种“依靠数据说谎”的常见方法是使用y轴刻度,使看起来好像变化比实际变化更重要。

当我审阅科学出版物或学生的实验报告时,我常常对这种“数据可视化的罪过”感到沮丧(我相信作者无意间犯了这个错误,但仍然会引起误导。)

但是,“始终将y轴从零开始”并不是一成不变的规则。例如,爱德华·塔夫特(Edward Tufte)指出,在时间序列中,基线不一定为零:

通常,在时间序列中,使用显示数据而不是零点的基线。如果在绘制数据时出现零点,则很好。但是,不要花很多空的垂直空间试图降低到零点,而要隐藏数据线本身中发生的事情。(这本书“如何用统计说谎”在这一点上是错误的。)

例如,在整个时间序列中都没有零点的地方,可以看看任何主要的科学研究出版物。科学家们希望展示他们的数据,而不是零。

对数据进行上下文化的冲动是一个很好的冲动,但是上下文并不是来自空的垂直空间下降到零,这一数字甚至在很多数据集中都不会出现。相反,对于上下文,水平显示更多数据!

我想指出我撰写的论文中的误导性陈述,但我不想成为零Y轴纯粹主义者。

是否有任何准则可解决何时将y轴从零开始以及何时不必要和/或不合适的情况?(尤其是在学术工作中。)


3
我认为是否包含(不包含)0可能会引起误解,这在很大程度上取决于所讲述的故事。
gung-恢复莫妮卡

2
在谈话中,短语“请注意高度抑制的零”或类似词可用于将诚实带给潜在的误导性人物。我对印刷材料不满意,但是在紧要关头也可以使用它。
dmckee 2015年

为避免所有这些情况,我会尽可能使用箱形图。无需计算均值和误差线,并且在一张图中就包含了有价值的信息(例如,数据分布,分布,偏度,范围)。另外,您正在显示原始数据。
Stefan

@Stefan箱形图确实可以提供帮助。但是,奇怪的是,甚至有些教科书都解释了方差分析,然后显示了箱形​​图。为此,均值(如果不是误差线)当然是相关的并且应该提供信息。取决于品种,许多箱形图在显示原始数据时做得很差,因为它们只是对其进行汇总。但是有一些增强功能可以提供帮助,例如分位数盒图。但是,在这种情况下,请注意,显示均值和误差线绝对不会使您显示如果在数据范围之外)。y=0
尼克·考克斯

@NickCox感谢您的评论!我同意完成方差分析显示平均值和误差线更为合理。但是,在进行任何分析之前,我发现箱形图的信息量更大,并且可以提供有关数据外观以及所选择的ANOVA是否合适的信息。当选择例如参数测试,但数据不符合要求的假设时,可能已经发生了“说谎数据”。因此,对于我作为科学研究的读者来说,我总是喜欢看到箱形图对所给出的结果下定决心。
Stefan

Answers:


40
  • 不要以任何无助于理解的方式使用图形中的空间。需要空间来显示数据!

  • 使用您的科学(工程,医学,社会,商业等)判断以及统计判断。(如果您不是客户或客户,请与现场人员交谈,以了解有趣或重要的事情,最好是委托分析人员进行。)

  • 如果与零的比较是问题的中心,甚至是某些问题,则在轴上显示零。y

这是三个简单的规则。(没有什么可以排除它们之间的紧张关系。)

这是一个简单的示例,但是所有这三个点都会出现:您以摄氏,华氏度或开尔文为单位测量患者的体温:选择。在什么意义上坚持显示零温度既有帮助又合乎逻辑?重要的信息,甚至在医学或生理上至关重要的信息,否则都会被遮盖。

这是一个演示的真实故事。一位研究人员正在显示印度各个州和工会领地的性别比例数据。图形是条形图,所有条形都从零开始。尽管有相当大的差异,但所有条形都接近相同的长度。没错,但是有趣的是,尽管有相似之处,但领域却是不同的,尽管存在差异,却并非相似。我建议,男性和女性之间的均等(1个女性或100个女性/ 100个男性)是更自然的参考水平。(我也愿意使用一些总体水平,例如全国平均水平作为参考。)即使是一些听过这个小故事的统计人员有时也会回答:“不;小节应始终从零开始。” 对我而言,在这种情况下,这不比无关的教条更好。

提及条形图指出,所用图形的种类也很重要。假设对于体温处于轴范围从35至40 C被选择为方便起见,包括所有的数据,从而使在35轴线“开始”显然杆所有的起始在35将是的一个差编码数据。但是这里的问题是图形元素的选择不当,而不是轴范围选择不当。yy

常见的一种绘图,尤其是在某些生物学和医学科学中似乎以粗线显示均值或其他汇总,从零开始,标准差或基于标准偏差的间隔表示细线的不确定性。那些不赞成的人称之为雷管或炸药图,之所以流行,部分原因是必须始终显示零。最终的结果是强调经常缺乏兴趣或效用的与零的比较。

有些人希望显示零,但也要添加一个小数位数中断以显示小数位数被打断。时尚变化和技术变化。几十年前,当研究人员绘制自己的图形或将任务委托给技术人员时,要求手动完成这项工作会更容易。现在,图形程序通常不支持缩放比例,我认为这没有损失。即使它们这样做,也很繁琐,可能会浪费图形区域的一部分。

请注意,没有人坚持对轴使用相同的规则。为什么不?如果您显示上个世纪左右的气候或经济波动,那么奇怪的是,标度应该从BC / CE边界或任何其他来源开始。x

除了上述三个规则外,自然还有一个零规则。

  • 无论您做什么,都要非常清楚。一致且信息丰富地标记轴。然后,请相信仔细的读者会看到您所做的事情。

因此,在这一点上,我非常同意爱德华·图夫特,而反对达雷尔·霍夫。

编辑2016年5月9日:

而不是尝试在所有图表中始终包含0基线,而是使用逻辑且有意义的基线

开罗,答: 2016年。 《真实的艺术:数据,图表和通讯地图》。 加利福尼亚州旧金山:《新骑士》,第136页。


7
除此之外,我认为当数据用条形图表示时,人们更倾向于教条式地坚持“从零开始”,理由是条形图显示的面积和面积如果不是从零开始就具有误导性。在克利夫兰点图上 -无论如何这通常都是更合适的可视化-似乎没有从零开始的引人注目的论点,人们似乎更愿意在哪里开始灵活。
银鱼

4
好答案。我在审查一贯使用不适当的轴范围(强调数据中的微小变化)的论文时提出了这个问题。这个答案使我意识到,我真正感到沮丧的是在理解和解释数据时缺乏(统计和工程方面的)判断力–在评论中要比抱怨轴范围要更具建设性。
ff524

4
关于轴从零开始的规则仅对于连续的比率变量才有意义,因此零具有真正的意义。权重为0表示没有权重。等等,但是C或F中的温度使用任意值作为零,因此即使考虑从那里开始轴也没有意义。
哈维·莫图尔斯基

2
条从0开始 C显示温度高于和低于水的冰点。我已经在气候学中看到了这一点,它具有物理意义。自然,我同意一个更笼统的观点,即比率比例表中自然为零,否则为任意。
尼克·考克斯

3
很好,但是我想指出,“判断”要点取决于听众(听众总是很重要!)。技术人员会阅读该轴,并理解其中的含义。在关于比例的潜在错误假设下,一定比例的外行人口会确定地忽略轴标签,并从图形的形状得出结论。如果图表是为外行听众准备的,则您必须将其纳入判断。
dmckee '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.