我曾经偶然发现过一种我非常喜欢的用于Internet上分类数据(即列联表)的图表,但是我再也找不到了,甚至不知道它叫什么。它本质上就像一个筛图,因为行高和列宽是相对于边际概率缩放的。因此,将每个框缩放到独立时预期的相对频率。但是,它与筛网图的不同之处在于,它不是在每个框内绘制交叉影线,而是在每个观测值的双变量均匀变量中随机选择的位置绘制了一个点(类似于散点图)。这样,点的密度反映了观察到的计数与预期计数的匹配程度。也就是说,如果每个框中的密度都相似,则空模型是合理的,)在空模型下可能不太可能。因为是绘制点而不是阴影线,所以绘制的元素与观察到的计数之间存在简单直观的对应关系,对于筛网图不一定是正确的(见下文)。此外,点的随机放置使绘图具有“有机”感觉。此外,颜色可用于突出显示与零模型有很大差异的框/单元格,并且图矩阵可用于检查许多不同变量之间的成对关系,因此可以结合相似图的优点。
- 有谁知道这个阴谋叫什么?
- 是否有可以在R或其他软件(例如Mondrian)中轻松实现此功能的软件包/功能? 我在vcd中找不到类似的东西。当然,从头开始可能很难对其进行编码,但这会很痛苦。
这是一个筛分图的简单示例,请注意,很容易看出在空模型下不同类别的预期计数应如何发挥作用,但很难将交叉影线与实际数字相协调,从而产生了一个不相当容易阅读并且在美学上很丑陋:
B ~B
A 38 4
~A 3 19
就其价值而言,镶嵌图具有相反的问题:尽管更容易查看哪些单元格具有“太多”或“太少”的计数(相对于null模型),但更难于识别出它们之间的关系。预期数会是。具体来说,列宽是相对于边际概率缩放的,而行高却不是,因此几乎无法提取该信息。
现在换个完全不同的东西...
- 有谁知道使用蓝色表示“太多”而使用红色表示“太少”的约定从何而来?这对我一直都是违反直觉的。在我看来,是非常高的密度(或太多的意见)去与热,低密度去与冷,而且(至少在舞台灯光)红色是变暖和蓝色是库尔斯。
更新: 如果我没记错的话,我看到的情节是一本书的pdf文件(简介或ch1),该书是作为市场营销预告片免费在线提供的。这是我从头开始编写的想法的粗略版本:
即使使用此粗略版本,我认为它也比筛图更易于阅读,并且在某些方面比镶嵌图更容易理解(例如,更容易识别它们之间的关系)。单元频率之间的差异将是独立的)。这将是很好的函数是:一。将使用任何列联表自动执行此操作;b。可以用作绘图矩阵的构建块,并且c。 会具有上述图所附带的出色功能(例如镶嵌图上的标准化残差图例)。
shading.points()
在上面引用的strucplot框架中轻松编写自己的代码,例如执行所需的操作,并且可以在vcd
包装中用作装饰图案。
R
功能是否assocplot
接近您的意思?如果没有,我敢打赌,R
程序员可以修改它或mosaicplot
做您想要的事情。