交互式数据可视化什么时候有用?


17

在准备一个演讲中,我将尽快给,我最近开始挖成两个主要(免费)工具,交互式数据可视化:GGobi蒙德里安 -都提供大范围的能力(即使他们有点马车)。

我想请您帮助阐明(对我自己,以及对我的未来听众​​)何时使用交互式图解会有所帮助?用于数据探索(针对我们自己)和数据表示(针对“客户”)?

对于向客户解释数据时,我可以看到以下动画的值:

  • 使用“标识/链接/画笔”来查看图形中的哪个数据点是什么。
  • 呈现数据的敏感性分析(例如:“如果我们删除这一点,这将是我们得到的)
  • 在数据中显示不同组的影响(例如:“让我们看看我们的男性图表,现在是女性图表”)
  • 显示时间的影响(或年龄,或总体而言,为演示文稿提供另一个维度)

对于我们自己探索数据时,在我们正在研究的数据集中探索异常值时,我可以看到标识/链接/刷涂的价值。

但是除了这两个示例之外,我不确定这些技术还提供了哪些实际用途。特别是对于我们自己的数据探索!

可以说,交互部分对于探索(例如)数据中不同组/集群的不同行为非常有用。但是,当(在实践中)我遇到这种情况时,我倾向于做的是运行相关的统计程序(以及事后检验),然后我发现很重要的事情会用彩色清楚地将数据划分为相关群体。从我所看到的情况来看,这是一种比“游刃有余”的数据更安全的方法(这很容易导致数据疏导(校正所需的多重比较的范围甚至不清楚)。

我很高兴阅读您在此问题上的经验/想法。

(此问题可以是Wiki-尽管它不是主观的,并且经过深思熟虑的答案将很乐意赢得我的“答案”标记:))


3
至少就我而言,我有点同舟共济。我很欣赏Mondrian并保持最新状态,但是当我实际探索一个新的数据集时,它通常位于R中,它的交互性较小,但总体上更灵活。我开始给您写一个完整的答案,并意识到我只是在理论上发言,而不是实际经验。
韦恩

Answers:


8

除了将定量或定性数据链接到空间模式(如@whuber所示)之外,我还要提及使用EDA以及画笔和各种链接图,以进行纵向高维数据分析。

您肯定知道,Dianne Cook和Deborah F. Swayne合着的出色著作《使用R和GGobi进行数据分析的交互和动态图形》(Springer UseR!,2007年)对此进行了讨论。作者在第一章中对EDA进行了很好的讨论,论证了EDA的“迫使我们突如其来”的必要性,并引用John Tukey(p。13):交互式和动态显示的使用既不是数据监听,也不是初步数据。检查(例如,数据的纯图形摘要),但是它仅被视为对数据的交互式调查,该调查可能在基于纯假设的统计建模之前或对其进行补充。

借助DescribeDisplayggplot2软件包,将GGobi及其R接口(rggobi)一起使用还解决了如何为中间报告或最终发布生成静态图形的问题,即使使用Projection Pursuitpp。26-34)也是如此

在同一行中,Michael Friendly长期以来一直提倡在分类数据分析中使用数据可视化,这在vcd软件包中得到了很大的体现,但在最近的vcdExtra软件包(包括通过rgl软件包进行的动态更新)中也得到了很好的体现。充当vcdgnm软件包之间的粘合剂,用于扩展对数线性模型。他最近在第六届CARME会议上做了很好的总结,即使用R中的vcd,gnm和vcdExtra包可视化分类数据的进展

因此,在纯粹的统计建模方法之前与其并行,EDA也可以被视为提供数据的直观说明(从某种意义上讲,它可以解释所观察到的数据中的意外模式)。也就是说,EDA不仅提供了研究现有数据内部结构的有用方法,而且还可以帮助完善和/或总结应用于其上的统计模型。例如,从本质上讲,双份子允许这样做。虽然他们不能对多维分析技术本身,他们是工具,可视化多维分析结果(通过给一个近似同时考虑所有个人或一起考虑所有变量或同时考虑两者之间的关系。可以在后续建模中使用因子得分代替原始度量,以降低维度或提供中间表示水平。

边注

冒着过时的风险,我仍会不时使用xlispstatLuke Tierney)。它具有用于交互式显示的简单而有效的功能,目前在基本R图形中不可用。我不了解Clojure + Incanter(+处理)中的类似功能。


8

图形的动态链接对于探索性空间数据分析ESDA是自然而有效的。ESDA系统通常将一张或多张定量图(例如,choropleth图)与基础数据的表格视图和统计图形链接在一起。大约15年以来,某些此类功能已成为少数桌面GIS系统的一部分,尤其是ArcView 3(已停产的商用产品)。免费的GeoDa软件在为空间数据探索和统计分析而设计的环境中提供了其中一些功能。它笨拙,具有特有的界面和未经修饰的图形,但是相当没有错误。

EDA的使用避免了这样的反对,即统计测试可能比交互式探索更好,因为在许多(大多数情况下)情况下,没有明确的统计模型,没有明显的(甚至是适当的)统计检验,并且假设检验通常是不相关的:人们需要看到什么会发生它发生,并观察统计关系变量之间的空间环境。 并非所有数据分析都是正式程序,或者甚至应该包括正式程序!


你好,韦伯。您的ESDA示例就是一个很好的例子,谢谢!如果您(或其他人)可以提出其他一些有关正式程序不那么相关的示例的信息,那么这将是最有帮助的。
Tal Galili

7

对我而言,交互式可视化仅对我自己进行探索或与非常实际的客户端一起工作时才有用。在进行最终演示时,我更喜欢选择最能说明我观点的静态图表。否则,客户可能会完全不喜欢gee-whiz因素。

我从中获得的最大好处是速度的提高,使我有更多的精力进行检查,这比我停止编写解决方案所需要的更多。JMP是我最喜欢的工具之一,因为它将很多我想要的东西集成到一个界面中。我认为大多数擅长统计的人都会在很短的时间内尝试使用JMP(或GGobi等)之类的东西,以至于无法真正掌握它。只需查看菜单,JMP特别会给您留下深刻的印象。但是,确实需要通读手册才能发现其全部功能。

但是,您提到了我对这种速度水平的主要担忧:您最终完全不了解p值的含义。在短短的几分钟内,您可以直观地检查数百个关系。毕竟,进行假设检验完全是一种误导,但我看到人们一直在这样做。

我在GGobi中喜欢的一项功能是它的投影追求,您可以在其中指定要在高维空间中寻找哪种类型的图案,然后坐下来观看它“追求”该目标。好东西!


2
+1。作为最后的反例,汉斯·罗斯林(Hans Rosling)著名的2006 TED演讲(ted.com/talks/…)引起了我的注意。回复:关于“更多”审查的要点,让我想起了证词中的一位律师如何询问我如何审查了支持我的证词的数据,以及当她了解到以互动方式完成工作时她的脸如何掉下来,因此,没有打印或保存任何东西(然后她可以传唤,检查并试图讨罪)。;-)
whuber

JMP是目前最好的统计应用程序之一。统计学家绝对应该学习如何使用它,即使只是打动他们的客户。它很昂贵,但如果您是学校/学院/大学的学生或工作人员,则价格便宜
Neil McGuigan
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.