在失去清晰度之前,我可以用图形表示多少个变量?


14

让我们看看我是否可以正确解释这个图形经济问题。我是该领域的新手,值得一提的是,这纯粹是出于好奇,我的例子是-就像您很快就能知道的-完全构成了。

在图表失去通信质量之前,可以用图形表示多少个变量?例如,假设我的听众是星期天的报纸读者。

假设我有这个设定:体重(x)/年龄(y),以及两个人:简,10岁,30公斤;还有乔,20岁,60公斤。图形表示可能是这样的:

在此处输入图片说明 在此处输入图片说明

现在,我知道我可以使用圆圈的大小添加另一个变量,因此,如果要添加一个表示简和乔一周吃多少汉堡(分别为10和20)的表示,我可能会遇到以下情况:

在此处输入图片说明 在此处输入图片说明

我什至可以使用形状或颜色+大小添加第四个变量,例如,如果他们吃的芝士汉堡比牛肉汉堡多(这里的限制是汉堡的类型是布尔值,只有两个可能的值),但是无论如何:

在此处输入图片说明 在此处输入图片说明

我认为这开始变得混乱。将形状添加到组合以表示第五个变量将有可能使图形“易于理解”。当我查看图表时,我的(特定的)大脑仅处理2或3个变量,没有更多。例如,他们吃组合早餐还是汉堡?

在此处输入图片说明 在此处输入图片说明

我想到的也许是第三维,但这看起来太可怕了。我可能会以完全错误的方式考虑这个问题,而我很可能在这里遗漏了一些我无法理解的明显东西(例如,如果尝试表示三个或四个以上的变量在实践中是错误的),对我的问题:

  • 对于在两轴图中同时表示的最大变量,4(如果图形像我的一样非常简单,则可能是5)是否合理?

  • 是否有其他图形类型允许更多变量而又不失清晰性?

  • 有一个很好的图表示例,成功表示大量变量吗?

Answers:


14

编辑III:我发现了一个非常漂亮的多变量定量数据可视化示例,因此必须添加它。您可以在“编辑III(诺贝尔奖获得者)”标题下找到它。

编辑II:有一些误解,我进行了编辑以试图阐明我如何解释数据的预期用途。我已替换了两个图像,并添加了“您要不要用它炸薯条”部分。


图形显示数据。

爱德华·塔夫特:

混乱和混乱是设计的失败,而不是信息的属性。混乱要求设计解决方案,而不是减少内容。通常,细节越密集,清晰度和理解度就越高,因为含义和推理是无情的。少即是无聊。

为什么我们要可视化数据?

  • 思维工具
  • 展示强烈观看的结果
  • 了解问题,做出决定
  • 显示比较,显示因果关系
  • 提供相信的理由

怎么样?

  • 显示数据
  • 诱使观看者思考内容而不是方法,图形设计,图形制作技术或其他方面
  • 避免扭曲数据的内容
  • 在一个狭小的空间中呈现许多数字
  • 使大数据集连贯一致
  • 鼓励眼睛比较不同的数据
  • 从广泛的概述到精细的结构,从几个细节级别揭示数据。
  • 服务于合理明确的目的:描述,探索,制表或装饰。
  • 与数据集的统计和语言描述紧密集成。

一些定义:

数据:

通常被认为是“在数据库中排序的东西”。当然,它可以是数字,图像,声音,视频等。数据是可收集的,通常是定量的。最原始的形式很难消化。只是数字墙。你懂; 矩阵。一般来说,我们不必由零,为我们所做的一切东西海量数据库具备,即使有时候我们没有的东西是最为东西翔实。因此,要了解我们所没有的,我们需要可视化我们拥有的。

信息:

您可以从数据中提取数据。通过以某种方式显示数据,我们可以收集信息。我经常使用的一个例子是,如果我给您列出了世界各国的名单,并告诉您缺少两个国家,那么您极不可能根据该列表找到它们。但是,如果我通过给地图上所有国家/地区上色来显示此信息,您将立即看到我已经忽略了中非共和国和新喀里多尼亚。这是“减少噪音”并以最有效的方式讲故事。

图表和数据可视化:

我不愿称呼您的示例图表。我知道这通常被视为数据可视化,信息设计或信息体系结构的同义词,但我不同意。对我来说,信息图表是一系列图形,图表和插图,它们很可能包含一堆关于如何读取数据的偏见性陈述。客观性较低,更容易跳过不符合创建者“利益”的数据:系统会引导您得出某人预先定义的结论。它们具有娱乐性,并且常常压倒性地使用插图,使插图失去了数据的关注。很好,但是我认为我们应该有所区别。

例子

大数据:

请记住,大数据与复杂数据并不相同。许多数据可能只是很多相同的数据,例如这张LinkedIn地图:核心数据是相同的,但是有过滤器(通过标记)。有两个变量:地理和将人定义为职业/兴趣/关系的某种标记。疯狂的数据量;但是只有两个变量。

在此处输入图片说明

多变量:

这是数据的多变量可视化的示例。这是查尔斯·米纳德(Charles Minard)1869年的图表,显示了拿破仑(1812)俄罗斯战役军中的人数,他们的动作以及返回路上遇到的温度。 大版本在这里。 在此处输入图片说明

破解代码需要花费一些时间,但是这样做的确很棒。涵盖的变量是:

  • 军队规模(生死人数)
  • 地理位置
  • 方向(东-西)
  • 温度
  • 时间(日期)
  • 因果关系(死于战争和寒冷中)

在一张简单的两色地图中,这是惊人的信息量。地理部分已风格化,以便为其他变量留出空间,但是我们毫无疑问地得到了它。

这是一个比较棘手的问题。如果您熟悉基本的进化可视化,分支图,系统发育和生物地理学原理,这将很容易阅读。请记住,它是为熟悉此技术的人制作的,因此它是一张专业的科学图表。它显示的是:来自南美的毒蛙谱系的植物志图像。左侧的地图显示了主要生物地理区域随时间变化的情况,右侧的图像显示了其生物地理起源背景下的青蛙谱系。(由Santos JC,Coloma LA,Summers K,Caldwell JP,Ree R等人[CC-BY-SA-2.5(www.creativecommons.org/licenses/by-sa/2.5)],通过Wikimedia Commons获得。当您“破解代码”时,它非常有用,而且信息量惊人。

在此处输入图片说明

小倍数,迷你图:

我对此不够强调:永远不要低估重复信息的价值,或将其划分为单独的相同可视化效果。只要比较容易地将一个图形与另一个图形进行比较,就可以了。我们是图案寻找机。这通常称为小倍数。我们几乎没有问题可以很快地分析这些图像,并且当十个较小的图像甚至可以更好地工作时,将所有内容挤入一张大图通常是没有意义的:

在此处输入图片说明

另一个:

在此处输入图片说明

一种使用不同但重复的图形的图形:

在此处输入图片说明

迷你图是Edward Tufte创造的一个术语,并且还发展成为 功能齐全,可完全自定义的javascript库。它们基本上是很小的图表,可以插入文本中,作为文本的一部分而不是“外部”对象。这是默认的样子: 在此处输入图片说明

编辑III(诺贝尔奖获得者)

我只需要添加我发现的数据可视化,那就太好了:它显示了诺贝尔奖获得者。共享的大学,学位,学科,年份,年龄,家乡,学位级别。确实是有力的证据。这些都是可量化的数据。这里更多。

在此处输入图片说明

在此处输入图片说明

您的资料

@Javi姿势的所有问题都非常重要。

您想要做的是创建一个可视化的思考工具。为此,您必须提取出最佳的信噪比质量。您正在努力的是如何将具有不同变量的数据关联到信息中。这是一个问题:什么需要大致正确,什么需要完全正确?目的是什么?

我将假设您要显示的数据没有太大的偏见:您希望读者自己找到相关性(如果有任何相关性)。您的目的不是要告诉人们汉堡对他们不利,还是女人要比男人少吃汉堡,而是让他们“看到”它,如果那是数据所包含的(想象这三个人是否是一个家庭。那会将我们对整个汉堡吃图的看法稍作调整)。

您的数据集是如此之小,您只需将它们全部放在表中就可以了。但这当然是关于一般想法的:

一个小细节:时间 (年龄)往往是我们从左到右(时间轴)所看到的水平方向。权衡上下的重量,因此切换x-y是个好主意。

1.什么是唯一的固定实体?

  • 名字

2.什么是(eh ..)变量变量?

  • 重量(公斤)
  • 年龄(年)
  • 汉堡数(整数)
  • 汉堡类型(整数)

注意:您的数据完全由单位组成。在一个单独的心理量表上可数,可量化。公斤,年龄,体重和数字。就数据库而言,它们的名称是关键。当您开始进行时空可视化时,这实在令人头疼。假设您应该添加出生地,当前房屋等。

这里唯一具有相关性的两个是汉堡的数量,无论它是否组合。所有其他变量都是独立的,并且只有一个是固定的(名称)。在某些时候,对于大型数据集,甚至名字也变得不那么有趣,并被人口,年龄,性别等取代。

有了这个很小的数据集,您就可以在一张图中得到全部信息,例如: 在此处输入图片说明

或者,您可以改变轴和名称气泡的内容:

个人说明:我认为这是两者中较好的,因为x和y包含人类的“物理”属性。气泡中的变量是汉堡的数量。

在此处输入图片说明

除了图形外,您还可以添加饼图,甚至仅包含饼图。就小倍数而言,我个人会同时拥有两者: 在此处输入图片说明

你想要炸薯条吗?

我的假设是我们还想知道汉堡与餐的比例。每顿饭都包含一个汉堡。并非所有餐点都是组合食品。

  1. 我们是否只想知道一个人有时是否吃过组合食品?
  2. 还是我们想知道有多少汉堡餐也是组合餐?

如果为1.,则将布尔值应用于名称/键/ id。

简有时吃组合食品?真假。

如果2,我们可以申请一个布尔值,每一餐:

1个芝士汉堡,combomalal = true

1个芝士汉堡,combomalal = true

1个芝士汉堡,combomalal = false

1个芝士汉堡,combomalal = false

1个芝士汉堡,combomalal = false

1个芝士汉堡,combomalal = false

1个芝士汉堡,combomalal = false

1个汉堡,combomalal = true

1个汉堡,combomalal = true

1个牛肉汉堡,combomalal = false

这非常繁琐,因此我们可以将其分解为:

简吃了10个汉堡。其中有三个是连击(“你要不要炸薯条?”)。

组合菜单之一是牛肉汉堡菜单。

其中两个是芝士汉堡菜单。

其余的是单个汉堡。5个奶酪,两个牛肉。

此饼图试图将其可视化。在此版本中,我保留了饼图以使其更加清晰。关于这一点的事情是,开始应用大型数据集和%是没有飞跃的: 在此处输入图片说明

但是我认为最好的方法是重新考虑。

观察它的另一种方法是使其真正非常简单。在这里更容易看到哪些年龄组,哪些体重组以及您没有“拥有”的所有数据可以告诉我们。您拥有的数据与空间无关,仅是单位(kg,年,数字+键/ id /名称):

(编辑:鸡蛋在我的脸上:我已将这些图像替换为更正确的图像,例如“所有餐点都是汉堡,并非所有餐点都是组合”)

在此处输入图片说明 与更多的人一起扩展很容易:

在此处输入图片说明 或者,甚至更好的是,如果您比较10、20和30岁的年龄组,则可以非常简单地读取统计可视化效果:

在此处输入图片说明

..并且要尽可能清楚;这是这种思维方式的一个例子。该图表显示了泰坦尼克号的幸存者,船员,阶级,男人,女人的比率。 在此处输入图片说明

还会有其他解决方案的负载,这些只是一些想法。

我可以继续下去,但是现在我已经筋疲力尽了,可能还有其他所有人。

可以玩的工具:

杰斐

Gapminder观看 Hans Rosling的精彩TED演讲-爱那个家伙

谷歌图表

索姆维斯

拉斐尔

MIT展览(以前称为Similie)

3天

高图

进一步阅读:

PJ Onori;捍卫艰辛

爱德华·塔夫特:漂亮的证据

Edward Tufte:构想信息

Edward Tufte:定量信息的可视化显示

视觉解释:图像和数量,证据和叙述

男,艾伦(Alan。),2007年,插图理论和上下文的视角,瑞士洛桑;纽约,纽约:AVA学术界

Isles C.和Roberts R.,1997。在可见光,摄影以及艺术,科学和日常分类中,牛津现代艺术博物馆。

Card,SK,Mackinlay,J。&Shneiderman,B.eds。,1999。《信息可视化中的阅读:使用视觉思考》第一版,Morgan Kaufmann。

Grafton,A。&Rosenberg,D.,2010年。《时间制图:时间轴的历史》,普林斯顿建筑出版社。

Lima,M.,2011年。视觉复杂性:信息的映射模式,普林斯顿建筑出版社。

Bounford,T.,2000年。《数字图:如何有效设计和呈现统计信息》,第0版,Watson-Guptill。

Steele,J。和Iliinsky,N。编辑,2010。“美丽的可视化:通过专家的眼光看数据”,第一版,O'Reilly Media。

Gleick,J.,2011年。信息:历史,理论,洪水,万神殿


我确实读完了所有内容,但要花几周才能吸收。你应该写一本书!
2014年

对于诺贝尔奖的形象,您知道他们是如何做到的吗?那些飘动的缎带很漂亮。
2014年

不,我不知道她是如何做到的,但是Giorgia Lupi非常乐意回答其他问题,因此您可以尝试简单地询问她的 giorgialupi.net
benteh 2014年

嘿,好主意。我刚刚给她发送了电子邮件。
2014年

2
您应该得到这个答案的中篇小说奖n_n
Rafael

5

我认为还有一些其他问题可能会缩小您对向用户表示数据的关键的搜索范围。我认为他们很像将简历缩减为您想要的特定工作。

  1. 您为什么要创建信息图表。
  2. 您希望受众了解您的数据的最终目标是什么?
  3. 您对受众有什么了解,他们与数据有何关系。(人口年龄,性别,地理位置,体重等)
  4. 您将显示的最重要和最不重要的数据是什么,以及它们之间的区别。
  5. 您将在哪种媒体/背景下显示数据,从而最好地实现创建数据的“净”目标?例如,它是数据的数字表示形式还是物理形式的数字表示形式(如果目标受众是孩子,请考虑一下罐子里的软糖)。是办公会议还是商业活动?
  6. 可以始终将数据拆分为不同的信息图,同时保持创建目标的完整性。

您的数据和目标应决定应显示和不显示的条款。例如,显示人们在星期二下午1点至下午3点在麦当劳订购的图表将有多重要,而您的整个目标只是显示人们在总体上订购的比较。即使我们有原始数据,也不需要时间变量。那不是我们的目标。

专门回答您的问题。我个人(主观)当你在过去这样的一个基本的图表使用three'ish / 4变量(大小,形状,颜色,位置),阅读器(我)感到厌烦/丢失和无聊想/丢失很可能不是的创建图形的原因。但是,它们可能非常有趣,并且可以真正吸引观众。例如,像这样因为反对这个。我也不会忽略第二个示例的重要性,因为如果我在办公室开会时展示常规数据,那将是一个非常有效的信息图。这回到关于显示数据的媒介和上下文的问题。

如果您正在寻找在数据中显示变量的方法,建议您研究图表。这是 Smashing Magazine关于创建有效信息图表一个很好的起点。请记住,其中一些可以而且是主观的。


2

这是一个很好的问题。真的

辉煌的思路在继续。

应该对此进行一些讨论。但是我的措辞略有不同:

**

我们可以与现代说明性技术和设计交叉参考哪些属性?

**

答案在于制作的三个方面:展示,设计和展示方式...所有这些都由观众的关注点融合和分解。

显示是物理的东西。受大小,分辨率和色彩空间的限制。

设计是无限的,但是这个问题真正有趣的方面。我们如何利用现代说明性技术以及我们对设计和创造力的理解,以尽可能充分地展示自己。

演示模式可以是静态,动态或交互式的。每种都有自己的优点和缺点,并与显示的媒介,类型和大小相加。

正如哈维(Javi)正确指出的那样,但可能还远远不够...这全是主观的!-这就是观众考虑因素的飞溅。或不。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.