用图形方式表示大量成对数据点的一种好方法是什么?


9

在我的领域中,绘制配对数据的常用方法是将一系列倾斜的细线段重叠起来,并用两组的中值和中值CI进行覆盖:

在此处输入图片说明

但是,由于数据点的数量变得非常大(在我的情况下,我的数量大约为10000对),这种图变得更加难以阅读:

在此处输入图片说明

降低alpha值会有所帮助,但这仍然不是很好。在寻找解决方案时,我遇到了本文,并决定尝试实现“平行线图”。同样,它对于少量数据点也非常有效:

在此处输入图片说明

ñ

在此处输入图片说明

我想我可以分别显示两组的分布,例如使用箱形图或小提琴,并在顶部绘制一条带有误差线的线以显示两个中位数/ CI,但是我真的不喜欢这个想法,因为它无法传达数据的配对性质。

我也不太热衷于2D散点图的概念:我希望使用更紧凑的表示形式,理想情况下是将两组值沿同一轴绘制的表示形式。为了完整起见,以下是二维散点图的数据:

在此处输入图片说明

有谁知道一种更好的方法来表示具有很大样本量的配对数据?您能否将我链接到一些示例?

编辑

对不起,我显然在解释我要寻找的东西方面做得不够好。是的,二维散点图确实有效,并且可以通过多种方式进行改进以更好地传达点的密度-我可以根据核密度估计对点进行颜色编码,也可以制作二维直方图,我可以在点等上方绘制轮廓,等等。

但是,对于我要传达的信息,我认为这太过分了。我实际上并不关心显示点本身的2D密度-我需要做的就是以尽可能简单明了的方式显示“条”的值通常大于“点”的值。 ,并且不会丢失数据的基本配对性质。理想情况下,我想沿同一轴而不是正交轴绘制两组的配对值,因为这样可以更直观地进行比较。

也许没有比散点图更好的选择了,但是我想知道是否有其他可行的选择。


1
您是否尝试过简单地bar将水平和dot垂直轴上的对应值绘制为散点图?
蒂尔·霍夫曼

@TillHoffmann是的,我在问题末尾提到了这一点。这可能是我目前的最佳选择,但我更希望使用一种更紧凑的表示形式,并且最好是沿着同一轴表示两组值的一种表示形式(也许我提出的要求不合理...)。我将散点图添加到我的问题中。
ali_m 2015年

抱歉,我错过了。您目前如何生成综合数据?
蒂尔·霍夫曼

2
您能解释一下“紧凑”表示的意思吗?散点图在小范围内显示关系以及个别异常数据方面显然优于所有其他散点图。它只会随着数据集大小的增加而更好地增长。(对于散点图来说,10,000并不大。)您提到了太多不同的图形,因此无法推断出您真正需要的图形。请告诉我们进行可视化的目的:您希望学习或传达给他人什么样的信息?您打算如何准确而迅速地感知和理解它?
ub

1
@whuber抱歉,不清楚。我希望找到一种表示数据的方法,以便使两组的值沿相同而不是正交的轴绘制(因为它们在“倾斜线”和“平行线”图中)。该消息非常简单-“条”的值通常高于“点”的值。除此之外,尽管我想传达的是样本中有很多对,但我不太关心表示分布的密度。
ali_m 2015年

Answers:


7

根据我对目标的理解,我将计算成对的差异(bars - dots),然后将这些差异绘制在直方图或核密度估计图中。您还可以添加(1)对应于零差的垂直线的任何组合(2)任何百分位数的选择。

这将突出显示数据的哪些部分bars超过dots,并且通常观察到的差异是什么。

(我假定你不感兴趣的显示的实际,原始值bars,并dots在同一个情节。)

还可以标出置信度或后可信区间,以表明这些差异是否显着。(H / T @MrMeritology!)


添加到此答案:您还可以绘制成对差异的置信区间,以可视方式指示差异是否显着。
MrMeritology 2015年

ÿ=μ+抵销ÿ一个+Δÿ一个-ÿ¯一个

2

ÿ-ÿ一个ÿ一个

ÿ=μ+抵销ÿ一个+Δÿ一个-ÿ¯一个+ϵ
+Δ2ÿ一个-ÿ¯一个2

您可以用图形方式以减少的alpha因子(*)来显示所显示的线条,也可以通过仅显示随机的线条样本来进一步减少线条。然后您可以根据斜率为线条着色...

对于尼克·考克斯(Nick Cox)的评论中提到的布兰德·奥特曼(Bland-Altman)图,例如,请参见示例,其中每个人具有多个观察值的方法之间的协议 或通过标签

(*)此处的alpha因子是使图中的点透明的图形参数,因此以后的过度绘图不会完全掩盖第一个绘制的点。


1
-

1

我更喜欢2D散点图。我将用浅灰色绘制参考线,以在拥挤的区域获得更多对比度。为了减轻拥挤,绘制无边界的标记,进一步减小Alpha,减小标记大小。

也就是说,如果您对典型对而不是对分布的翅膀更感兴趣,请尝试dots对的累积和与的累积和进行线描bars。该图仍为2D,但墨水较少。为了节省绘图区域,您可以将迹线旋转45°,以便将框架用作参考方向。

该图还将显示数据中的任何趋势。如果已知该过程是平稳的,则按例如其几何平均值来对sqrt(bars*dots)


0

我建议根据您的需要绘制线条,以表示中位数和四分位数,或者就此而言,尽可能多地选择百分位数。中位数可能比其他百分位数线更粗/更可辨别。这将有助于保留查看数据在整个分布中的行为方式的能力,而不会损害当前在您的领域中使用的绘图的简单性和熟悉性。

同样,在如此高的样本量下,带有误差线的均值或中值趋势可能就足够了,因为您将非常享受中心极限定理。生物医学领域也依赖于那些成对的线图,但是这种情况经常发生,因为样本量可能在10到20的数量级上,因此可视化潜在的杠杆点很重要。


0

我的第一个建议是散点图。

如果在您的图中不均匀分布的10000个点仍然是模糊的云,请考虑热图。x = 10.5,y = 11.5时像素的颜色表示将10.45和10.55之间的值映射到11.45和11.55之间的值的次数:0 =白色= RGB(255,255,255),1 =蓝色= RGB(0, 0,255),2 = RGB(1,0,254),... 256及以上= RGB(255,0,0)=红色


除了分辨率较低外,这基本上给了我与2D散布相同的表示形式。我可能最终会做这样的事情,但是我理想地希望有一个更紧凑的表示形式,它沿着相同的轴而不是正交的轴绘制两组的值。
ali_m 2015年

1
查看您的散点图,我发现您在“墨迹”中心失去了很多信息。您需要通过应用变换(对数?)或使用我建议的健康地图来做一些事情。
德克·霍斯滕

抱歉! 您的建议是完全合理的-我只是在解释我要寻找的内容方面做得不够好。是的,二维图(散点图,热图,轮廓图等)可以很好地表示采样点的密度,但是我认为这比我真正需要显示的信息要多。我需要做的就是证明'bars'的值通常高于'dots'的值。我正在寻找最简单的方式来显示此信息,同时保留数据的配对性质。
ali_m 2015年

麦田图上的对角线是否足以指示方向?
德克·霍斯滕

不,但是也许我有不合理的期望:-)
ali_m 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.