列联表的筛子/镶嵌图的替代品


17

我曾经偶然发现过一种我非常喜欢的用于Internet上分类数据(即列联表)的图表,但是我再也找不到了,甚至不知道它叫什么。它本质上就像一个筛图,因为行高和列宽是相对于边际概率缩放的。因此,将每个框缩放到独立时预期的相对频率。但是,它与筛网图的不同之处在于,它不是在每个框内绘制交叉影线,而是在每个观测值的双变量均匀变量中随机选择的位置绘制了一个点(类似于散点图)。这样,点的密度反映了观察到的计数与预期计数的匹配程度。也就是说,如果每个框中的密度都相似,则空模型是合理的,一世Ĵ)在空模型下可能不太可能。因为是绘制点而不是阴影线,所以绘制的元素与观察到的计数之间存在简单直观的对应关系,对于筛网图不一定是正确的(见下文)。此外,点的随机放置使绘图具有“有机”感觉。此外,颜色可用于突出显示与零模型有很大差异的框/单元格,并且图矩阵可用于检查许多不同变量之间的成对关系,因此可以结合相似图的优点。

  • 有谁知道这个阴谋叫什么?
  • 是否有可以在R或其他软件(例如Mondrian)中轻松实现此功能的软件包/功能? 我在vcd中找不到类似的东西。当然,从头开始可能很难对其进行编码,但这会很痛苦。

这是一个筛分图的简单示例,请注意,很容易看出在空模型下不同类别的预期计数应如何发挥作用,但很难将交叉影线与实际数字相协调,从而产生了一个不相当容易阅读并且在美学上很丑陋:

    B ~B
 A 38  4
~A  3 19

在此处输入图片说明
就其价值而言,镶嵌图具有相反的问题:尽管更容易查看哪些单元格具有“太多”或“太少”的计数(相对于null模型),但更难于识别出它们之间的关系。预期数会是。具体来说,列宽是相对于边际概率缩放的,而行高却不是,因此几乎无法提取该信息。
在此处输入图片说明
现在换个完全不同的东西...

  • 有谁知道使用蓝色表示“太多”而使用红色表示“太少”的约定从何而来?这对我一直都是违反直觉的。在我看来,是非常高的密度(或太多的意见)去与,低密度去与,而且(至少在舞台灯光)红色是变暖和蓝色是库尔斯

更新: 如果我没记错的话,我看到的情节是一本书的pdf文件(简介或ch1),该书是作为市场营销预告片免费在线提供的。这是我从头开始编写的想法的粗略版本:
在此处输入图片说明
即使使用此粗略版本,我认为它也比筛图更易于阅读,并且在某些方面比镶嵌图更容易理解(例如,更容易识别它们之间的关系)。单元频率之间的差异将是独立的)。这将是很好的函数是:一。将使用任何列联表自动执行此操作;b。可以用作绘图矩阵的构建块,并且c。 会具有上述图所附带的出色功能(例如镶嵌图上的标准化残差图例)。


因此,您本质上想要镶嵌图不同的镶嵌图吗?该R功能是否assocplot接近您的意思?如果没有,我敢打赌,R程序员可以修改它或mosaicplot做您想要的事情。
彼得·弗洛姆

1
用于可视化(条件)独立利益,基于残留阴影部分相关的引用(Zeileis等,2007),PDF在这里,并在这里另一个线程的可视化应急表有几个引用。我认为Zeileis文章对颜色进行了很好的讨论,可以回答您的最后一个问题(仔细阅读参考文献,看看它们是否也引用了您所讨论的图表可能会很好)。
Andy W

相反,@ PeterFlom,我基本上想要一个具有不同填充类型的筛图。或者,您可以说我想要一个镶嵌图,其中显示的框相对于独立(并且可能还有不同类型的填充)下的预期频率进行缩放。
gung-恢复莫妮卡

“有人知道使用蓝色表示“太多”而使用红色表示“太少”的惯例是从哪里来的吗?这一直对我来说是违反直觉的。” 好点子。这确实是违反直觉的。的光的光谱,从蓝色左侧(与更小的波长相关联)到红色右侧变为大致(具有更大的波长相关联)。马赛克显示似乎颠倒了这一点……
landroni 2015年

筛图的想法是每个单元格中的盒子数量与观察到的频率成正比,因此相对密度显示出大于或小于预期频率。如果您不喜欢这些颜色,则可以轻松将其更改为默认值。如果您不喜欢默认的筛子着色功能,则可以shading.points()在上面引用的strucplot框架中轻松编写自己的代码,例如执行所需的操作,并且可以在vcd包装中用作装饰图案。
user101089 '02

Answers:


15

您所描述的书听起来像是Michael Friendly的《可视化分类数据》。在第1章中描述的似乎符合您要求的图被描述为一种用于可视化列联表数据的概念模型(由作者松散地描述为具有观测密度的动态压力模型),可以在google预览中看到适用于第1章。该书面向SAS用户。

此处引用有关该主题的论文: www.datavis.ca/papers/koln/kolnpapr.pdf

Michael Friendly,“用于可视化列联表数据的概念模型”。

http://i47.tinypic.com/148n5n7.jpg

在此处输入图片说明

*顺便说一句,作者也被列为vcd软件包的作者之一(因为它特别受到上述书的启发)-也许您可以直接问他是否对内置函数之一进行了简单的修改,并不明显。

**着色方案似乎将蓝色与独立性的正偏差相关联,将红色与负偏差相关联。尽管在这种情况下红色方案是有意义的,但也许更适合使用绿色来代表正偏差。

http://www.datavis.ca/papers/asa92.html


2
做得好,谜团就解决了!我实际上需要购买这本书,而不是以各种花哨的方式预览它,并让我的图书馆时不时地给我发送章节。IMO的这种可视化形式使我想起了很多制图师所说的“点图”,并且人们可以利用那里的文献来证明点是比线条和交叉影线更好的可视化工具。就点的优先放置而言,这也是很好的文献。
安迪W

这给了我一个很好的开始。谢谢你的帮助。
gung-恢复莫妮卡

1

也许不是您所看到的,但是对于可视化独立 通信下预期的离场,有很好的动机。

http://www.jstatsoft.org/v20/i03/

(顺便说一句,SAS和M Friendly的书在建议的调整上都弄错了,许多地块中都有人工痕迹,这可能会分散其感知价值。)


感谢您的帮助,我喜欢对应图。您是否可以对错误的建议调整内容进行更多说明?那是什么调整?怎么不准确?情节到底出了什么问题?
gung-恢复莫妮卡

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.