Answers:
我认为这里的基本原则是,您可以并且应该显示所有个人价值。即使细节不是很有趣或没有用,也没有理由不显示细节,也没有理由要求读者解码(说)直方图,其中直方图可能只代表一个或两个值。
我在这里提供一个小的复合材料。左上角是水平呈现的点状图或带状图(至少有二十个其他名称用于同一构想),右上角是垂直呈现的同一个构想。具有相同值的实例通过堆栈进行匹配。
在帕岑的意义下,底部是分位数框图,其中默认水平标度是累积概率(用普通术语来说是绘图位置),并且可以绘制常规中位数和四分位数框,使得(原则上)一半像通常宣传的那样,值在框内,而值的一半在框外。这里多余的水平线表示平均值。有些人在箱形图上添加均值作为额外的点或标记符号。我发现这可能会与显示数据本身发生冲突,并且我希望增加一行。如果中位数线与均值线似乎重合,则需要考虑该怎么做。平均值和中位数几乎总是可以明显地不同。
可以说,在图形上明确显示度量单位是标准的,但是我看不到它们是什么。
(我在这里特意提出了一个额外的观点,那就是图表可能很小,但仍能提供很多信息。实际上,我不会将它们缩小得那么小。)
编辑:
广义上以Parzen的意义将交叉引用添加到分位数箱图中(在下面的第二篇中进一步引用;存在“分位数箱图”的其他用法)
如何使用Mann-Whitney U检验获得哪个实验做得更好?
Shera,DM1991。分位数图的一些使用,以增强数据表示。 计算科学与统计 23:50-53。
Militký,J.和M. Meloun。1993年。一些用于单变量探索性数据分析的图形辅助工具。 Analytica Chimica Acta 277:215-221。
Meloun,M.和J.Militký。1994年。分析化学计量学中的计算机辅助数据处理。I.对单变量数据的探索性分析。 化学论文 48:151-157。
编辑2:
这些线索的主要目的不仅在于回答眼前的问题,而且还涉及可能使其他人感兴趣的紧密相似的问题。
其他答案中的一些其他图形设计在此处显示标识符,在没有其他详细信息的情况下,标识符不可知地标记为1 ... 14。假设这些和其他标识符在解释中使用,显示它们的一个简单设计是(克利夫兰)点图。这是几种可能性中的两种,其中按字面意义遵循标识符顺序(左),并对值进行排序(右)。如果需要,有足够的空间放置更长的标签。
与条形图相比,此设计的一个优点是,如果看起来更好,那么响应或结果轴的起始值可能不为零。
旋转图表使响应轴垂直也很容易想象。
@Nick Cox已经给出了一些很好的例子,我经常使用的其他两个选项是带有点叠加或略微抖动的箱形图,
带R代码
times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')
boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')
编辑:如果您愿意,也可以使用小提琴图
ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()
您的问题使我想起了本博文中介绍的技术。关于离散事件的可视化。
核心技巧是绘制the time before an event
x the time after an event
。
这可能是偶然的,但是到顶部中间区域不包含任何数据。所以有一些可见的结构。
快速而肮脏的R
代码。
data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event" )
for (i in 1:12) {
text(x[i],y[i], i)
}
text
矢量参数- text(x, y, 1:12)
应该起作用。
另一个想法,因为您在浪费时间。
跑道图-具有极坐标的条形图-产生与秒表相同的效果:
理想情况下,观察标签应叠加在横条上或至少叠加在另一端。现在,观看者在进行任何比较时要特别注意跟踪哪个观察值(向上/向下)。