如何最好地可视化三组中许多比例的差异?


18

我正在尝试从视觉上比较三种不同的新闻出版物如何涵盖不同的主题(通过LDA主题模型确定)。我有两种相关的方法,但是从同事那里收到很多反馈,说这不是很直观。我希望外面有人对它可视化有更好的主意。

在第一个图中,我显示了每个出版物中每个主题的比例,如下所示:

所有主题和出版物的比例

对于几乎所有与我交谈过的人来说,这都是非常简单直观的。但是,很难看到出版物之间的差异。哪个报纸报道的话题更多?

为此,我绘制了主题比例最高的出版物与主题排名第二的出版物之间的差异,并按主题排名最高的出版物进行了区分。像这样:

第一和第二高的主题之间的区别

因此,举例来说,足球的巨大标杆实际上就是al-Ahram English到Daily News Egypt(足球报道中排名第二)之间的距离,并且由于Al-Ahram排名第一而被涂成了红色。同样,审判是绿色的,因为“埃及独立报”的比例最高,条形大小是“埃及独立报”与“每日新闻埃及报”之间的距离(再次为#2)。

我必须在两段中全部解释这一事实,这是一个很肯定的迹象,表明该图未通过自给自足测试。仅仅看一下就很难说出到底发生了什么。

关于如何以更直观的方式在视觉上突出显示每个主题的主要出版物的任何一般建议?

编辑:要使用的数据:这是dputR输出以及CSV文件

编辑2:这是一个初步的点图版本,其点的直径与主题在主体中的比例成正比(这是主题最初的排序方式)。尽管我仍然需要进行一些微调,但感觉比以前更加直观。感谢大家!

点图


1
我刚刚添加了一些数据(用于R和CSV)。我还没有完成选择好的颜色(因此,圣诞节的颜色是红色/绿色),尽管我知道色盲问题:)
Andrew

1
这里提到的“比例”有点让人讨厌,因为数据不是真正的比例,更重要的是,到目前为止,没有一种图形解决方案取决于数据是比例。这很好,因为解决方案与大量数据相关,但不要误导。
尼克·考克斯

(+1)个好问题,包括可下载的数据集和快速跟进!
chl

安德鲁,关于您的最新编辑,我认为垂直网格线会更好。假设您不关心从图形中读取精确值,它们会创建一个检查器模式,但不会增加太多价值。
xan 2014年

没有垂直线?
2014年

Answers:


18

感谢您使数据可访问以及有趣的数据集和图形挑战。

我的主要建议是(克利夫兰)圆点图。

在此处输入图片说明

我想强调的最重要的细节是:

  1. 此处的叠加允许并简化比较。

  2. 显示器中主题的顺序看起来很随意。如果没有自然顺序(例如时间,空间,有序变量),我将始终对其中一个变量进行排序以提供框架。使用哪种可能取决于研究人员的决定是特别有趣还是重要。另一种可能性是对某种程度的论文之间的差异进行排序,以使获得相似覆盖率的主题在一端,而获得不同覆盖率的主题在另一端。

  3. 与封闭或实心标记或符号相比,开放标记或点符号可以更好地解决重叠或标识问题,在最坏的情况下,封闭或实心标记或符号会相互掩盖或遮挡。(在这三种情况下,可能会很好用的替代方法是给这三份报纸使用字母A,D和I。)

显然,有很大的空间可以改进我的设计。例如,字母是否太大和/或太重?另一方面,标题必须易于阅读,否则图形将失败。

一些较小的挑剔点:

一种。图形上的红色和绿色是要避免的颜色组合。当使用不同的标记时,颜色选择不太重要。

b。图形上的水平刻度线会分散注意力。相比之下,我的网格线是必需的,但我尝试通过使用细而轻的线使其不引人注目。

×

克利夫兰圆点图最应归功于

克利夫兰,WS1984。数据表示的图形方法:满刻度,点图和基于多记录的日志记录。美国统计学家 38:270-80。

克利夫兰,WS1985。图形数据元素。 加利福尼亚蒙特雷:Wadsworth。

克利夫兰,WS1994。图形数据的元素。 新泽西州萨米特市:霍巴特出版社。

一个先驱(据统计,它因完全不同的工作而闻名!)是

Pearson,ES,1956年。统计几何学的某些方面:在理解数学统计的理论和应用中使用视觉表示。皇家统计学会杂志 A 119:125-146。

对于那些感兴趣的人,在使用代码读取.csv文件后,在Stata中准备了图形

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

太棒了-谢谢!不幸的是,百分比没有任何累加,因为这些值是来自大量文档集的标准化方法(即,每个出版物中的每个文档都由LDA发现的20个主题的某种组合组成-这表示归一化的方法……因此,小数字)
安德鲁(Andrew

同样,主题按其在语料库中的比例排序。埃及治理是最普遍出现的话题,而杂项是最罕见的话题。但是在此使用该顺序会使点/符号在视觉上更难跟随。
2014年

这很棒!谢谢!我更新了原始帖子以反映您的建议并增加语料比例。
2014年

(+6)好的答案!拥有引用和可复制的代码总是很高兴。
chl 2014年

@chl非常感谢您的赞赏和额外的声誉。
Nick Cox 2014年

14

尼克·考克斯(Nick Cox)的点状图可能是完整图片的最佳选择。如果您确实想强调第一关系与第二关系,则可以对图表进行修改,使差异条以第二条的长度偏移。

在此处输入图片说明

对于其他大图片视图,您可以尝试诸如斜率图或平行坐标图。此处的行可能有点太拥挤,但是如果您要突出显示主题的子集,则行可能会起作用。

在此处输入图片说明

另外,您可以尝试helpmeviz.com,它针对非常具体的数据,例如此类问题。


有趣!分钟:轴标题或标签“比例”与%的单位不匹配。
Nick Cox 2014年

哦,这真的很有趣。我将对此进行研究,看它是否可以补充点图。
2014年

2

我的第一个想法是建议一个马赛克图 ; 它将每个子类别绘制为一个矩形,其中一个维度代表主要类别的总数,另一个维度代表该子类别的比例份额。有一个R包可以绘制它们,但是使用低级图形工具也很简单。

但是,如果在维中仅要比较比例的2个或3个类别,则镶嵌图(如基于百分比的堆积条形图)效果最好。因此,如果您想比较三个报纸中每份报纸的文章比例之间的主题差异,而对于您的预期用途而言不是那么多,则比较三份报纸之间每个主题的报道比例差异,那么它们将很有效。细微但重要的区别!

对于您要强调的内容,我认为最有效的图是最简单的图之一-分组的条形图。 人们对条形图的理解要比点图多。一目了然,您可以看到正在比较不同大小的数量,并且要比较的值是并排的。

但是,如果您确实想强调比例差异,则可以创建一个自定义的分组条形图,对其进行修改以定位每个组,以使每个类别的中值与轴对齐,而不是零值:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

请注意,每组中的条形图仍保持对齐以便于比较大小,并且现在根据该组的中值将各组的基线定位在轴的左侧,而突出到轴右侧的条形图是等效的到第二个条形图,显示前两个类别之间的差异。

不管您使用标准的分组条形图还是像上述的经过偏移量调整的图,您仍然可以从镶嵌图中了解点子,并使每个条形图的宽度与该报纸的总文章数成正比(因此,条形与该类别中该报纸上的文章数成正比)。

由于您的测试统计信息是每个比较的属性,而不是各个值的属性,因此我认为根据重要性缩放每个数据点没有用。取而代之的是,我在每个分组旁边都有一个表示重要性的图标。对于学术刊物,标准*/ **/ ***有熟悉的好处,但如果你想显示的统计信息的全面,持续性,你可以发挥创意。


这里的主要思想是垂直分组条。这是一种被广泛使用的设计,但是它意味着垂直60条,而不是海报原始的20条。尽管您可以明显地调整条的宽度,但在这种情况下,我认为您将需要更多空间才能做到这一点,尤其是当您想在组之间添加空间时。
尼克·考克斯

@NickCox与更紧凑的原始图表相比,这是个缺点,尽管如果面向景观的图形适合您的整体布局,则可以将整个图形旋转90度。
AmeliaBR 2014年

您可以,但是从左到右也很难设置60个小节,并且必须保持20个标签(例如“穆斯林兄弟会和政治”)的可读性……
Nick Cox

您可能可以通过将各个条形排列在一起而不是并排放置来使它起作用。在没有看到模型的情况下很难说(我的ASCII艺术并不擅长传达外观)。由于它不太熟悉结构,因此不太直观,并且如果两个钢筋的高度几乎完全相同,可能会引起混淆。但是,如果替代方案是一像素宽的条形...
AmeliaBR 2014年

因此,您正在回答我关于点图的建议。
Nick Cox 2014年

1

您是否尝试过气泡图?https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

各个主题可以是圆圈,每个圆圈可以是每个新闻媒体覆盖该主题的百分比的饼图。圆圈的大小可以指示主题的相对覆盖范围。例如,如果撰写的有关石油的文章总数超过文化的篇幅,那么油圈的直径就更大。


会是什么[Xÿ]那么坐标是?
Nick Stauner 2014年

1
@NickStauner当我最初回答这个问题时,我没有在数据集中看到编辑过的问题。座标代表的数字不多,但出版物的数量不多。圆圈可以按主题或直径大小进行聚类。我不知道为什么首先使用百分比,因为这些数字非常小。
rocinante 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.