准备地块时应遵循哪些最佳实践?


40

在准备地块时,我通常会做出自己独特的选择。但是,我想知道是否有用于生成图的最佳实践。

注意:Rob对这个问题的答案的评论在这里非常相关。

Answers:


23

在绘制地块时,Tufte原则是非常好的做法。另请参阅他的书《美丽的证据》

原则包括:

  • 保持高数据墨水率
  • 删除图表垃圾
  • 提供图形元素多种功能
  • 注意数据密度

搜索的术语是信息可视化


4
Tufte的定量信息可视化显示(amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20)优于“美丽证据” IMO。尽管他的四本书都很不错,但是如果您有机会参加他的其中一门课程,那就去做吧。
斯蒂芬·特纳

5
我同意图夫特所说的大部分内容,但是我不得不说,他的数据不足:墨水盒图只是白痴。我认为与传统的箱形图相比,它们花了我3-4倍的时间才能弄清楚。R默认值要好得多(尽管尾部末端的线是不必要的)。传统箱形图的另一个优点是,它们可以代表样本大小(带有宽度)和标准偏差(带有缺口)。
naught101

2
+1 @ naught101其他几个人在上分享这个观点SOstackoverflow.com/questions/6973394/...

15

我们可能会整日呆在这里,代表最佳做法,但是您应该先阅读Tufte。我的主要建议:

把事情简单化。

人们经常尝试在图表中加载信息。但是,您实际上应该只是想传达一个主要想法,如果有人几乎没有立即收到您的信息,那么您应该重新考虑如何呈现它。因此,在消息本身清楚之前,不要开始处理图表。奥卡姆剃刀也适用于此。


1
我同意大部分观点,但是我认为“保持简单”。可能不清楚。您的主要观点是,您应该知道图表要传达的内容。“把事情简单化。” 提出了其他一些想法,例如Tufte鼓励的“数据:墨水比率应该很高。”和Tufte劝阻的“现在不超过三个变量”。
Thomas Levine

显然,这个建议比相反的建议要好得多。但是在某些情况下,图表必然很复杂,需要详细,仔细,周到的研究。但是并发症本身应该尽可能简单。例如,在5 x 5矩阵中的25个图可能需要长时间研究,但是每个图只显示一些数据的想法相对容易掌握。
尼克·考克斯

12

我并不总是遵循的一条经验法则,但有时会有用,它是考虑到您的情节在将来的某个时候可能是

  • 通过传真发送,
  • 影印和/或
  • 以黑白复制。

您需要尝试使您的图足够清晰,以使即使将来对其进行不精确的复制,该图试图传达的信息仍然清晰可辨。


14
我认为您的意思是过去某个时候通过传真发送的内容;)
hadley 2010年

为此+1。您开创性的情节,即论文的核心,不应完全理解,因为我已将其打印出来。
Fomite 2011年

这个答案解决了类似的问题。
naught101

8

除了传达清晰的信息外,我还总是想起绘图技巧:

  • 标签和图例的字体大小应足够大,最好与最终出版物中使用的字体大小和字体相同。
  • 线宽应该足够大(如果绘图仅略微缩小,则1 pt线会消失)。我尝试将线宽设为3到5磅。
  • 如果用颜色绘制多个数据集/曲线,请确保以黑白打印时可以理解它们,例如,除了使用颜色之外,还可以使用其他符号或线型。
  • 始终使用无损(或接近无损)格式,例如pdf,ps或svg等矢量格式或高分辨率png或gif(jpeg根本不起作用,并且从未为艺术线条设计)。
  • 准备要在出版物中使用的最终纵横比的图形。以后更改宽高比可能会产生令人讨厌的字体或符号形状。
  • 始终从绘图程序中删除无用的杂物,例如未使用的直方图信息,趋势线(几乎没有用)或默认标题。

我已经将我的绘图软件(matplotlib,ROOT或root2matplotlib)配置为默认情况下可以执行大多数操作。在我使用之前gnuplot,这里需要特别注意。


8

在物理学领域,有一条规则是,仅通过快速查看图表即可理解整个论文/报告。因此,我主要建议他们应该自我解释。
这还意味着您必须始终检查您的听众是否熟悉某种情节-假设每个科学家都知道箱图是什么,然后浪费了一个小时来解释它,我曾经犯了一个大错误。


对箱形图的经验表示同情,但这意味着(a)使用相对简单的变体(例如,显示中位数,四分位数,5%和95%点,以及所有超出的数据点),而不是以基于1.5 IQR;(b)添加标题以使约定明确。
尼克·考克斯

6

这是我的指南,基于我看到的最常见错误(除了提到的所有其他优点)

  • 如果元素顺序不相关,则使用散点图,而不是折线图。
  • 在准备要比较的图时,请对所有图使用相同的比例因子。
  • 甚至更好-找到一种在单个图中组合数据的方法(例如:箱图比多个直方图更好地比较大量分布)。
  • 不要忘记指定单位
  • 仅在必要时才使用图例-直接标记曲线通常更清晰。
  • 如果必须使用图例,请将其移动到图中的空白区域。
  • 对于折线图,请寻求长宽比,以产生与page大致成45o的线

“箱线图是一个超过数直方图来比较大量分布的更好” -这一点,如果你的数据是单峰仅是真实的,并且不具有峰度或无法用箱线图捕获..一些其他的功能
naught101


6

如果进行彩色绘图,请考虑色盲人士可能难以仅凭颜色区分元素。所以:

  • 使用线型来区分线。
  • 在元素中使用额外的权重,使线宽至少2磅,等等。
  • 使用不同的标记和颜色来区分点。
  • 使用标签和注释,同时也指位置和样式。
  • 在文本中引用绘图元素时,请通过颜色,相对位置和样式来描述它们:“红色,上方,点划线”
  • 使用对色盲友好的调色板。见http://www.vischeck.com/vischeck/http://jfly.iam.u-tokyo.ac.jp/color/#pallet。我在code.google.com的最后参考中有一个简单的python调色板实现,请寻找python-cudtools

还请考虑以下事实:有人可能必须在灰度打印机上将其打印出来。我之前已经做过-我使用ggplot2默认颜色(在屏幕上看起来很棒)进行分配,然后将其打印为黑白,并且一半的颜色无法与其他颜色区分开!*腮红*
naught101

4

这些都是很棒的建议。我们在http://biostat.mc.vanderbilt.edu/StatGraphCourse上收集了很多资料。制药行业,学术界和FDA的一组统计学家也在创造一种资源,这将对临床试验和相关研究非常有用。一个月内将发布许多新材料,但已经有很多新材料-http: //www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

我个人最喜欢的图画书是William Cleveland 撰写的Elements of Graphing Data

在软件方面,我认为很难击败R的ggplot2和grid软件包。Stata还支持一些出色的图形。


3

它还取决于您不希望在何处发布绘图。在为期刊做任何图之前,请先咨询作者指南,以免麻烦。

还应以易于修改的格式保存图,或保存用于创建图的代码。您可能需要进行更正。



2

其他答案过于笼统,难以令人信服,因此让我给出一个更笼统的答案。我已经为这个问题苦了一段时间。我提供以下过程:

  1. 了解你的讯息
  2. 了解你的听众
  3. 了解你的限制
  4. 考虑到您的限制,向受众定制信息

我对诸如“保持简单”之类的笼统说法表示怀疑,这是什么意思?好吧,这取决于听众。一些观众会吃饱Tufte风格的。但是有些观众会不时地欣赏一些图表垃圾。有些人对散点图感到无聊。有些人喜欢彩色背景。即使损害“审美”的纯洁度,让他们多一点参与是那么错误吗?由您决定。

听众的反应将是重要的反馈,但不是唯一的。如果你找到一个方法来衡量他们的理解之前之后您的演示文稿,那么你就会开始明白你所做的影响。

“正确”的答案将取决于以下类型的问题:

  • 您将使用哪种媒体?

  • 您要创建静态图还是交互式图?

  • 您是要讲一个预先定义的故事(博览会)还是鼓励实验(探索)?

  • 您希望听众在何种程度上得出自己的结论?

  • 您希望观众在多大程度上跟随并相信您的故事?

  • 您希望听众在多大程度上挑战您的发现?

总而言之,请根据您的信息,受众和约束条件故意设计材料。


“订婚”还是分心?颜色可以,但是您最终还是要关注数据,美观应该为数据服务,而不是相反。
naught101

2

我似乎还记得Tufte提到的一件事,而在其他答案中却没有,那就是映射 -即,使图形上的位置,方向,大小等代表现实。图上显示的内容应该在现实世界中显示。大应该大(记住,面积应该代表面积和体积。不要试图用面积代表标量值,这是非常含糊的!)。如果相关,这也适用于颜色,形状等。

一个有趣的示例是此处的“裙系列”图:http : //a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html。从技术上讲这是正确的,并且“更短”的裙边长度在图表上占据较高的位置,但实际上相当令人困惑,因为裙边长度从顶部开始,然后向下(与人或树木不同,我们从此处测量高度)地面)。因此,增加的裙边长度实际上表示一个较低的值:

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

在此处输入图片说明

一如既往,有困难。例如,我们通常考虑前进的时间,至少在西方,我们从左到右阅读,因此时间序列图通常也随着时间的增加从左到右流动。那么,如果您想随着时间的推移最好地表示横向最好的东西(例如东西的东西测量),会发生什么呢?在这种情况下,您必须做出让步,要么描绘时间向上或向下移动(我猜这又取决于文化观念),要么选择将横向变量映射到图形上的向上/向下。


1
权衡时间的例子/空间是在书中,制作地图(关键的讨论和例子在这里给出
安迪·w ^

漂亮的(可怕的)例子!地图带来了另一个更困难的折衷方案:尝试在二维页面上表示2维+时间(例如,大陆漂移图)。相当困难。但是我想这就是动画的目的:)
naught101

您的示例可以提及经常出现的两个额外问题。1.对于时间轴,标题或标签(如“ TIme”)通常是多余的。2.标题或标签(如“裙装系列”)始终可以通过简洁但内容丰富的说明加以改进,包括适当的度量单位。
尼克·考克斯

1

这取决于讨论情节的方式。

例如,如果我要为将要来自不同位置的呼叫者进行的小组会议发送情节,则我更喜欢将它们放到Powerpoint中,而不是Excel中,这样更容易翻转。

对于一对一的技术电话,我将在excel中添加一些内容,以便客户端能够将图移到一边,并查看原始数据。或者,我可以沿着边回归系数将p值输入到单元格中,例如

请记住:地块很便宜,尤其是幻灯片放映或通过电子邮件发送给团体时。我宁愿做10个清晰的图,我们可以翻阅,而不是5个图,在同一图上我尝试将不同的同类(例如“男性和女性”)放在一起。


1

我要补充一点,地块的选择应反映用于分析数据的统计检验的类型。换句话说,用于分析的数据的任何特征都应以视觉方式显示-因此,如果您使用t检验,则将显示均值和标准差,而如果使用曼恩-惠特尼检验,则将显示箱线图。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.