编辑III:我发现了一个非常漂亮的多变量定量数据可视化示例,因此必须添加它。您可以在“编辑III(诺贝尔奖获得者)”标题下找到它。
编辑II:有一些误解,我进行了编辑以试图阐明我如何解释数据的预期用途。我已替换了两个图像,并添加了“您要不要用它炸薯条”部分。
图形显示数据。
爱德华·塔夫特:
混乱和混乱是设计的失败,而不是信息的属性。混乱要求设计解决方案,而不是减少内容。通常,细节越密集,清晰度和理解度就越高,因为含义和推理是无情的。少即是无聊。
为什么我们要可视化数据?
- 思维工具
- 展示强烈观看的结果
- 了解问题,做出决定
- 显示比较,显示因果关系
- 提供相信的理由
怎么样?
- 显示数据
- 诱使观看者思考内容而不是方法,图形设计,图形制作技术或其他方面
- 避免扭曲数据的内容
- 在一个狭小的空间中呈现许多数字
- 使大数据集连贯一致
- 鼓励眼睛比较不同的数据
- 从广泛的概述到精细的结构,从几个细节级别揭示数据。
- 服务于合理明确的目的:描述,探索,制表或装饰。
- 与数据集的统计和语言描述紧密集成。
一些定义:
数据:
通常被认为是“在数据库中排序的东西”。当然,它可以是数字,图像,声音,视频等。数据是可收集的,通常是定量的。最原始的形式很难消化。只是数字墙。你懂; 矩阵。一般来说,我们不必由零,为我们所做的一切东西海量数据库不具备,即使有时候我们没有的东西是最为东西翔实。因此,要了解我们所没有的,我们需要可视化我们所拥有的。
信息:
您可以从数据中提取数据。通过以某种方式显示数据,我们可以收集信息。我经常使用的一个例子是,如果我给您列出了世界各国的名单,并告诉您缺少两个国家,那么您极不可能根据该列表找到它们。但是,如果我通过给地图上所有国家/地区上色来显示此信息,您将立即看到我已经忽略了中非共和国和新喀里多尼亚。这是“减少噪音”并以最有效的方式讲故事。
图表和数据可视化:
我不愿称呼您的示例图表。我知道这通常被视为数据可视化,信息设计或信息体系结构的同义词,但我不同意。对我来说,信息图表是一系列图形,图表和插图,它们很可能包含一堆关于如何读取数据的偏见性陈述。客观性较低,更容易跳过不符合创建者“利益”的数据:系统会引导您得出某人预先定义的结论。它们具有娱乐性,并且常常压倒性地使用插图,使插图失去了数据的关注。很好,但是我认为我们应该有所区别。
例子
大数据:
请记住,大数据与复杂数据并不相同。许多数据可能只是很多相同的数据,例如这张LinkedIn地图:核心数据是相同的,但是有过滤器(通过标记)。有两个变量:地理和将人定义为职业/兴趣/关系的某种标记。疯狂的数据量;但是只有两个变量。
多变量:
这是数据的多变量可视化的示例。这是查尔斯·米纳德(Charles Minard)1869年的图表,显示了拿破仑(1812)俄罗斯战役军中的人数,他们的动作以及返回路上遇到的温度。
大版本在这里。
破解代码需要花费一些时间,但是这样做的确很棒。涵盖的变量是:
- 军队规模(生死人数)
- 地理位置
- 方向(东-西)
- 温度
- 时间(日期)
- 因果关系(死于战争和寒冷中)
在一张简单的两色地图中,这是惊人的信息量。地理部分已风格化,以便为其他变量留出空间,但是我们毫无疑问地得到了它。
这是一个比较棘手的问题。如果您熟悉基本的进化可视化,分支图,系统发育和生物地理学原理,这将很容易阅读。请记住,它是为熟悉此技术的人制作的,因此它是一张专业的科学图表。它显示的是:来自南美的毒蛙谱系的植物志图像。左侧的地图显示了主要生物地理区域随时间变化的情况,右侧的图像显示了其生物地理起源背景下的青蛙谱系。(由Santos JC,Coloma LA,Summers K,Caldwell JP,Ree R等人[CC-BY-SA-2.5(www.creativecommons.org/licenses/by-sa/2.5)],通过Wikimedia Commons获得。当您“破解代码”时,它非常有用,而且信息量惊人。
小倍数,迷你图:
我对此不够强调:永远不要低估重复信息的价值,或将其划分为单独的相同可视化效果。只要比较容易地将一个图形与另一个图形进行比较,就可以了。我们是图案寻找机。这通常称为小倍数。我们几乎没有问题可以很快地分析这些图像,并且当十个较小的图像甚至可以更好地工作时,将所有内容挤入一张大图通常是没有意义的:
另一个:
一种使用不同但重复的图形的图形:
迷你图是Edward Tufte创造的一个术语,并且还发展成为
功能齐全,可完全自定义的javascript库。它们基本上是很小的图表,可以插入文本中,作为文本的一部分而不是“外部”对象。这是默认的样子:
编辑III(诺贝尔奖获得者)
我只需要添加我发现的数据可视化,那就太好了:它显示了诺贝尔奖获得者。共享的大学,学位,学科,年份,年龄,家乡,学位级别。确实是有力的证据。这些都是可量化的数据。这里更多。
您的资料
@Javi姿势的所有问题都非常重要。
您想要做的是创建一个可视化的思考工具。为此,您必须提取出最佳的信噪比质量。您正在努力的是如何将具有不同变量的数据关联到信息中。这是一个问题:什么需要大致正确,什么需要完全正确?目的是什么?
我将假设您要显示的数据没有太大的偏见:您希望读者自己找到相关性(如果有任何相关性)。您的目的不是要告诉人们汉堡对他们不利,还是女人要比男人少吃汉堡,而是让他们“看到”它,如果那是数据所包含的(想象这三个人是否是一个家庭。那会将我们对整个汉堡吃图的看法稍作调整)。
您的数据集是如此之小,您只需将它们全部放在表中就可以了。但这当然是关于一般想法的:
一个小细节:时间 (年龄)往往是我们从左到右(时间轴)所看到的水平方向。权衡上下的重量,因此切换x-y是个好主意。
1.什么是唯一的固定实体?
2.什么是(eh ..)变量变量?
- 重量(公斤)
- 年龄(年)
- 汉堡数(整数)
- 汉堡类型(整数)
注意:您的数据完全由单位组成。在一个单独的心理量表上可数,可量化。公斤,年龄,体重和数字。就数据库而言,它们的名称是关键。当您开始进行时空可视化时,这实在令人头疼。假设您应该添加出生地,当前房屋等。
这里唯一具有相关性的两个是汉堡的数量,无论它是否组合。所有其他变量都是独立的,并且只有一个是固定的(名称)。在某些时候,对于大型数据集,甚至名字也变得不那么有趣,并被人口,年龄,性别等取代。
有了这个很小的数据集,您就可以在一张图中得到全部信息,例如:
或者,您可以改变轴和名称气泡的内容:
个人说明:我认为这是两者中较好的,因为x和y包含人类的“物理”属性。气泡中的变量是汉堡的数量。
除了图形外,您还可以添加饼图,甚至仅包含饼图。就小倍数而言,我个人会同时拥有两者:
你想要炸薯条吗?
我的假设是我们还想知道汉堡与餐的比例。每顿饭都包含一个汉堡。并非所有餐点都是组合食品。
- 我们是否只想知道一个人有时是否吃过组合食品?
- 还是我们想知道有多少汉堡餐也是组合餐?
如果为1.,则将布尔值应用于名称/键/ id。
简有时吃组合食品?真假。
如果2,我们可以申请一个布尔值,每一餐:
1个芝士汉堡,combomalal = true
1个芝士汉堡,combomalal = true
1个芝士汉堡,combomalal = false
1个芝士汉堡,combomalal = false
1个芝士汉堡,combomalal = false
1个芝士汉堡,combomalal = false
1个芝士汉堡,combomalal = false
1个汉堡,combomalal = true
1个汉堡,combomalal = true
1个牛肉汉堡,combomalal = false
这非常繁琐,因此我们可以将其分解为:
简吃了10个汉堡。其中有三个是连击(“你要不要炸薯条?”)。
组合菜单之一是牛肉汉堡菜单。
其中两个是芝士汉堡菜单。
其余的是单个汉堡。5个奶酪,两个牛肉。
此饼图试图将其可视化。在此版本中,我保留了饼图以使其更加清晰。关于这一点的事情是,开始应用大型数据集和%是没有飞跃的:
但是我认为最好的方法是重新考虑。
观察它的另一种方法是使其真正非常简单。在这里更容易看到哪些年龄组,哪些体重组以及您没有“拥有”的所有数据可以告诉我们。您拥有的数据与空间无关,仅是单位(kg,年,数字+键/ id /名称):
(编辑:鸡蛋在我的脸上:我已将这些图像替换为更正确的图像,例如“所有餐点都是汉堡,并非所有餐点都是组合”)
与更多的人一起扩展很容易:
或者,甚至更好的是,如果您比较10、20和30岁的年龄组,则可以非常简单地读取统计可视化效果:
..并且要尽可能清楚;这是这种思维方式的一个例子。该图表显示了泰坦尼克号的幸存者,船员,阶级,男人,女人的比率。
还会有其他解决方案的负载,这些只是一些想法。
我可以继续下去,但是现在我已经筋疲力尽了,可能还有其他所有人。
可以玩的工具:
杰斐
Gapminder观看
Hans Rosling的精彩TED演讲-爱那个家伙
谷歌图表
索姆维斯
拉斐尔
MIT展览(以前称为Similie)
3天
高图
进一步阅读:
PJ Onori;捍卫艰辛
爱德华·塔夫特:漂亮的证据
Edward Tufte:构想信息
Edward Tufte:定量信息的可视化显示
视觉解释:图像和数量,证据和叙述
男,艾伦(Alan。),2007年,插图理论和上下文的视角,瑞士洛桑;纽约,纽约:AVA学术界
Isles C.和Roberts R.,1997。在可见光,摄影以及艺术,科学和日常分类中,牛津现代艺术博物馆。
Card,SK,Mackinlay,J。&Shneiderman,B.eds。,1999。《信息可视化中的阅读:使用视觉思考》第一版,Morgan Kaufmann。
Grafton,A。&Rosenberg,D.,2010年。《时间制图:时间轴的历史》,普林斯顿建筑出版社。
Lima,M.,2011年。视觉复杂性:信息的映射模式,普林斯顿建筑出版社。
Bounford,T.,2000年。《数字图:如何有效设计和呈现统计信息》,第0版,Watson-Guptill。
Steele,J。和Iliinsky,N。编辑,2010。“美丽的可视化:通过专家的眼光看数据”,第一版,O'Reilly Media。
Gleick,J.,2011年。信息:历史,理论,洪水,万神殿