Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

4
网格线和灰色背景是否杂乱无章,是否应仅在例外情况下使用?
似乎大多数主管部门都同意,根据任何合理的定义,地块中的深色或其他突出的网格线都是“垃圾邮件”,并分散了查看者对图表主体中消息的注意力。因此,我不会为这一点提供参考。 同样,我们都同意,会有那个时代苍白网格线,以创建参考观众将是必要的。正如本文所指出的,Tufte认为偶尔需要(和使用)网格线。我同意ggplot2中Hadley Wickham的方法,在需要使用这些网格线时,可以在浅灰色背景上将其变为白色。 但是我不确定的是,是否像ggplot2一样,这些网格线和灰色背景是否应为默认值。例如,除了将白色网格线浮雕化以外,似乎没有其他理由使用灰色背景-这进一步引出了是否需要其中一个的问题。我最近开始使用ggplot2满足我的大多数图形需求,并且认为它很棒,但它对我以前使用的图形的“无框,无背景,无网格线”方法提出了挑战。我曾经认为这gridlines=OFF应该是我的默认设置,除非有特殊的原因要添加它们-例如,基本上是本文推荐的方法。 当然,在ggplot2中定义主题很简单,以避免出现网格线和背景阴影(事实上,我们已经在我的工作中做到了这一点),但是ggplot2的方法太棒了,通常它的默认美学选择很好,我想知道是否我想念一些东西。 所以-对于这一点的任何参考,我将不胜感激。我确信它已经经过了深思熟虑(例如,Hadley Wickham在设置ggplot2默认值时),而且我很乐意指出正确的方向。我能找到的最好的是ggplot2 Google网上论坛上的几个链接,但是在给定的链接上没有克利夫兰最有用的参考。

4
在一个图中可视化许多变量
我想展示某些变量(〜15)的值如何随时间变化,但我也想展示变量在每年中如何彼此不同。所以我创建了这个情节: 但是,即使更改配色方案或添加不同的线条/形状类型,也看起来很混乱。有没有更好的方式可视化此类数据? 使用R代码测试数据: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L, …

6
统计图形是否有“你好,世界”?
在计算机编程中,有一个经典的第一个程序用于学习/教学一种新的语言或系统,称为“你好,世界”。 http://en.wikipedia.org/wiki/Hello_world_program 使用绘图程序包是否有经典的首次数据可视化?如果是这样,那是什么?如果没有,那么好的候选人将是什么?



3
可视化李克特项目响应数据
有什么办法可以形象地显示李克特反应集? 例如,一组询问X在其有关A,B,C,D,E,F和G的决策中的重要性的项目?有没有比堆积条形图更好的东西? 不适用的回应应该怎么做?他们将如何代表? 条形图是否应报告百分比或响应次数?(即条的总长度应相同吗?) 如果是百分比,分母是否应包括无效和/或N / A响应? 我有自己的看法,但我正在寻找其他人的想法。

2
如何在GAM中包含一个互动词?
以下代码评估两个时间序列之间的相似性: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …


3
可视化降维是否应该视为由t-SNE解决的“封闭”问题?
我已经阅读了很多有关 -sne算法以进行降维。我对“经典”数据集(例如MNIST)的性能印象深刻,在该数据集上,数字清晰地分开了(请参阅原始文章):ŤŤt 我还使用它来可视化我正在训练的神经网络学到的功能,并对结果感到非常满意。 因此,据我了解: ŤŤtØ (ñ 日志n )Ø(ñ日志⁡ñ)O(n \log n) 我知道这是一个非常大胆的声明。我有兴趣了解这种方法的潜在“陷阱”。也就是说,在任何情况下我们都知道它没有用吗?此外,该领域存在哪些“开放”问题?

2
具有轮廓/热量叠加的散点图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在最近的一篇论文的增刊中看到了该图,我很希望能够使用R复制它。这是一个散点图,但是要解决过度绘制问题,可以使用等高线将其“加热”为蓝色到红色,对应于过度绘图密度。我该怎么做?

3
可视化模型预测概率的校准
假设我有一个预测模型,该模型为每种情况下产生每个类别的概率。现在,我认识到,如果我想使用这些概率进行分类(精确度,召回率等),则有很多方法可以评估这种模型。我也认识到,ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。 我有兴趣评估模型的校准。 我知道,一个评分规则,如布来得分可以完成这个任务非常有用。没关系,我可能会沿这条线合并一些内容,但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70%的可能性是它会在约70%的时间实际发生,等等。 我听说过(但从未使用过)QQ图,起初我以为这是我想要的。但是,看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例,我有我的预测概率,然后是事件是否实际发生: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的,还是我在寻找其他东西?如果我应该使用QQ图,将数据转换为概率分布的正确方法是什么? 我想我可以按预测的概率对两列进行排序,然后创建一些垃圾箱。这是我应该做的事情,还是我想念某个地方?我熟悉各种离散化技术,但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中?

7
热图是否是“数据可视化的最无效类型之一”?
问题:热图(对于哪种类型的数据可视化问题)最有效?(特别是,它比所有其他可能的可视化技术更有效吗?) 热图何时最无效? 是否可以使用任何常见的模式或经验法则来确定热图是否可能是可视化数据的有效方法,以及何时可能无效? (主要是我考虑了2个类别变量和1个连续变量的热图,但也有兴趣听取有关其他类型热图的意见。) 上下文:我正在上一门有关数据可视化的在线课程,现在他们正在讨论无效和过度使用的地块类型。他们已经提到了炸药图和饼图,给出了为什么这些效果不佳以及为什么有更好的替代方法的原因,这很清楚,并且使我信服。此外,很容易找到其他资料来证实关于炸药图和饼图的既定观点。 但是,该课程还说“热图是数据可视化的最无效类型之一”。原因的解释如下。但是,当我试图在Google上找到证实这一观点的其他地方时,与查找关于饼形图和炸药图的有效性的观点相反,我遇到了很多困难。因此,我想知道在课程中给出的热图表征在何种程度上是有效的,以及在特定背景下,针对它们的影响因素何时最不重要和最重要。 给出的原因是: 很难将颜色映射到连续的比例尺上。 该规则有一些例外,因此这通常不会破坏交易,但是在热图的情况下,此问题特别困难,因为我们对颜色的感知会根据相邻颜色而变化。因此,即使在较小的数据集中,热图也不适合查看单个结果。这导致: 通常,使用查表法回答特定问题是不可行的,因为不可能以足够的精度推断出与给定颜色相对应的数值。 通常情况下,数据不是以显示趋势的方式进行聚类的。 没有这种聚类,通常很难或不可能推断出有关总体总体模式的任何信息。 热图通常仅用于传达“哇因素”或只是看起来很酷,尤其是在使用多色渐变时,但是通常有更好的方法来传达数据。 以通用比例绘制连续数据始终是最佳选择。如果存在时间分量,则最明显的选择是折线图。

4
该图表显示虚假和真实的阳性率的名称是什么,它是如何产生的?
下图显示了假阳性率与真阳性率的连续曲线: 但是,我没有立即得到的是如何计算这些费率。如果将方法应用于数据集,则该方法具有一定的FP速率和一定的FN速率。这不是说每种方法都应该有一个点而不是一条曲线吗?当然,有多种方法可以配置一个方法,产生多个不同的点,但是我不清楚这种比率的连续性是如何产生的或如何产生的。

4
列联表的最佳可视化是哪一个?
从统计的角度来看,哪张是最好的图来显示列联表,通常通过卡方检验来分析列联表?它是躲避的条形图,堆叠的条形图,热图,轮廓图,抖动的散点图,多条线图还是其他东西?应该显示绝对值还是百分比? 编辑:或如@forecaster在评论中建议的那样,数字表本身就是一个简单的图,应该足够了。

2
良好的在线资源,其中包含有关在各种条件下绘制两个数值变量之间关系的图形的提示
内容: 一段时间以来,我获得了一系列启发式方法,可以有效地绘制两个数字变量之间的关联。我想大多数处理数据的人都会有一套相似的规则。 此类规则的示例可能是: 如果变量之一正偏,请考虑在对数刻度上绘制该轴。 如果数据点很多(例如n> 1000),则采用其他策略,例如使用某种形式的部分透明性或对数据进行采样; 如果变量之一属于有限数量的离散类别,请考虑使用抖动或向日葵图; 如果存在三个或更多变量,请考虑使用散点图矩阵; 拟合某种形式的趋势线通常很有用; 将绘图字符的大小调整为样本大小(对于较大的n,使用较小的绘图字符); 等等。 题: 我希望能够引导学生访问一个网页或网站,该网站或网站解释了这些技巧和其他技巧,以有效地绘制两个数值变量之间的关联(也许带有示例)。 互联网上有没有做得很好的页面或站点?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.