箱图有哪些替代方案?


20

我正在创建一个网站,该网站显示用户选择的多边形的普查数据,并希望以图形方式显示各种参数的分布(每个参数一个图)。

数据通常具有以下属性:

  1. 样本数量往往很大(例如大约10,000个数据点)
  2. 值的范围往往要求较大(例如,最小人口可以小于100,最大人口可以是500,000)
  3. q1通常接近最小值(例如200),而q2和q3将在10,000以内
  4. 它看起来不像正态分布

我不是统计学家,因此我的描述可能不太清楚。

我想在图表上显示此分布,市民(外行,如果您愿意)可以看到该分布。

我本来希望使用直方图,但是由于值的范围很大,因此是不可能的,因为这使得制作垃圾箱并不是一件容易的事。

据我对统计的了解很少,通常使用箱形图来显示此类数据,但我认为对于外行而言,解密箱形图并不容易。

我有什么选择可以以一种易于理解的方式显示此数据?


您到底要显示什么?对我来说,您的一个数据点代表什么样的数据还不清楚。
mpiktas


@mpiktas:我的数据是村庄的人口普查数据。我的网站将允许用户在地图上选择一个区域,然后查找该区域中的所有村庄。一个村庄的人口普查数据包含各种值,例如:该村庄的男性人口,女性人口,平均家庭收入等。我希望显示用户选择区域内所有村庄的特定值(例如:总人口)的数据分布。
Devdatta Tengshe

Answers:


13

箱线图并不复杂。毕竟,您只需要计算三个四分位数,以及定义范围的最小值和最大值即可;当我们想要绘制晶须时,会产生一些细微的差别,并且已经提出了各种方法。例如,在Tukey箱图中,距第一个或第三个四分位数相差 1.5倍之外的值将被视为离群值,并显示为简单点。另请参阅克里斯汀·波特(Kristin Potter)的“ 呈现统计信息的方法:箱线图”以获得良好概述。在[R软件实现了略有不同的规则,但如果你想研究它(看源代码是可用的boxplot()boxplot.stats()功能)。但是,当要从一个非常偏斜的分布中识别离群值时,它并不是很有用(但请参阅Hubert和Vandervieren的《针对偏斜分布的调整后的箱形图》,CSDA 2008 52(12))。

至于在线可视化,我建议您看一下Protovis,它是用于交互式Web展示的无插件js工具箱。示例页面仅用几行就非常说明如何使用该页面。


3
我从事生物学研究。我认识一些不能真正掌握箱线图的同事(我是说,有博士学位)。我不会使用它们来定位一般受众。
nico 2010年

1
@nico这是一个公平的观点。但是,这不是不使用有效图形摘要的原因。箱线图实际作用的示意图可能会帮助读者。
chl 2010年

1
这实际上取决于目标受众是什么以及网站的目标是什么。解释箱线图肯定会有所帮助,但是仍然有些人在分发的概念上苦苦挣扎。
nico 2010年

@nico是的,我同意。尽管在“通过可视化动物园进行的导览”中没有提到箱线图-但这是针对大型和复杂数据集的,但我只是喜欢它,很遗憾看到它在实验科学中的使用并不多。叠加原始数据是帮助读者可视化分布的一种方式。
chl 2010年

1
我知道!我总是尝试将我的同事“转换”为箱线图,至少在撰写论文,进行演示等方面,但是有时是!
nico 2010年


7

我建议您坚持直方图。它们比替代方法更广为人知。使用对数刻度来应对较大范围的值。这是我在Stata中花费几分钟制作的一个示例:在值轴上具有对数刻度的直方图
我承认x轴数字标签并非完全简单或自动,但是在您建立网站时,我确定您的编程技能取决于挑战!


好点子。直方图(或带宽实验的密度图)是一个很好的解决方案。
suncoolsu 2010年

您完全正确,直方图是显示分布最容易理解的方式。我将尝试使用两个轴以对数刻度制作直方图。
Devdatta Tengshe 2011年

2
我只建议对x轴使用对数刻度。我认为频率轴的对数刻度不是一个好主意,因为直方图每个条形的阴影区域都不会与观测值的数量成比例。
一站式

5

这是一个matlab函数,用于以二维方式并排绘制多个直方图,以替代箱形图。参见顶部的图片。这是另一个

密度条是箱形图的另一种选择。它是一个阴影单色条纹,其一点的暗度与该点的数量的概率密度成比例。这是密度带的R实现


1
(+1)忘记了。可能很方便。
chl 2010年

1
刚刚找到了带阴影显示不确定性的无胶版PDF版本。
chl

@chl:该链接无效
kjetil b halvorsen

4

XX=01020100


3
引用我的一个朋友:如果您想“隐藏”在纸上的东西,请将其放在文本中而不是图形中。如果要确保没有人读过它,请将其放在表格中!;)当然只是在开玩笑,但是拥有一个带有交互式地图的网站,供用户单击等。所有这些都可以得到一张桌子...好吧,这将令人失望!
nico 2010年

@nico,是的,但是有时候表比图表提供更多信息。例如,我更喜欢表格而不是错误的图表。在这种情况下,表格仍可以用图形表示,我建议使用分位数,因为它们没有异常值问题。
mpiktas 2010年

这就是我目前正在做的(在图表上显示十分之几),但是在向某些目标受众展示了这些图表之后,我们收到了反馈,认为图表不容易理解。
Devdatta Tengshe 2011年

2

如果您针对的是一般人群(即非统计知识的受众),则应着眼于糖果而不是统计准确性。

不用管箱图了,更不用说小提琴了(我个人觉得很难看)!如果您问一般的街头人什么是分位数,您通常会得到一些睁大眼睛的沉默...

您应该使用条形图,气泡图或一些饼图(brrrr)。忘记错误栏(尽管我会在适用的地方将SD放在文本中)。

使用颜色,形状,粗线,3D。即使不必阅读所有图例/轴等,您也应该使每个图表都独特且立即易于理解。

信息美丽是获取想法的很好资源。例如,看这张图:咖啡因和卡路里:任何人都可以理解它,它令人赏心悦目。

并且,当然,请看爱德华·塔夫特的作品。


请注意,我并不是在建议他为他的应用程序使用小提琴图,而是建议使用对数间隔的柱状图的直方图。小提琴图是标题中问题的答案(与帖子本身的问题大不相同)。
迪克兰有袋动物博物馆,2010年


2

我更喜欢小提琴自己绘制图,因为这可以使人知道分布的形状。但是,如果值的范围较大,那么也许最好是绘制数据的对数而不是原始值,这将使选择直方图等的框大小成为可能。不要提及日志并在轴上标记10、100、1000、10000、100000、1000000等。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.