Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

5
如何显示交叉(配对)实验的误差线
以下场景已成为调查者(I),审阅者/编辑者(R,与CRAN不相关)和我(M)这三者中的最常见问题解答,是情节创建者。我们可以假设(R)是典型的医学大老板评论者,他只知道每个图都必须有误差条,否则是错误的。当涉及到统计审查员时,问题就不那么重要了。 情境 在典型的药理交叉研究中,测试了两种药物A和B对葡萄糖水平的影响。每位患者均按随机顺序进行两次测试,并且假定没有残留。主要终点是葡萄糖(BA)之间的差异,我们假设配对t检验就足够了。 (I)想要显示两种情况下的绝对葡萄糖水平的图。他担心(R)对误差条的需求,并要求在条形图中出现标准误差。让我们不要在这里开始条形图战争。 (I):那不是真的。条形重叠,并且我们有p = 0.03?那不是我在高中学到的。 (M):我们在这里有一个配对的设计。要求的误差线完全不相关,计数的是配对差异的SE / CI,图中未显示。如果我可以选择,并且没有太多数据,那么我希望使用以下图表 新增1:这是几个响应中提到的平行坐标图 (M):这些线显示了配对,并且大多数线都向上,这是正确的印象,因为斜率才是最重要的(好吧,这是绝对的,尽管如此)。 (I):那张照片令人困惑。没有人理解它,并且没有错误条(R在潜伏)。 (M):我们还可以添加另一个图,以显示差异的相关置信区间。距零线的距离给人以效果大小的印象。 (I):没人做 (R):它浪费了珍贵的树木 (男):(作为一个好德国人):是的,在树上指点了。但是,当我们进行多种处理和多种对比时,我还是会使用它(并且永远不会将其发布)。 有什么建议吗?如果要创建绘图,R代码在下面。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

2
在热量/轮廓图中最有效地使用颜色
在介绍时频EEG发现时,通常使用热量/轮廓图。经常选择的配色方案(以及我喜欢和使用的配色方案)是“喷射”配色方案(例如,参见google图像搜索时频EEG)。我想知道是否有更好的配色方案来显示这些图,和/或显示这些图的指南。 例如,来自R基础库 #Volcano x <- 10*(1:nrow(volcano)) y <- 10*(1:ncol(volcano)) image(x, y, volcano, col = terrain.colors(100), axes = FALSE) # With Jet colours jet.colors <- colorRampPalette(c("midnightblue","blue", "cyan","green1", "yellow","orange","red", "darkred"), space="Lab") image(x, y, volcano, col = jet.colors(100), axes = FALSE)

5
减少高维数据以进行可视化的方法
我正在进行2D物理模拟,并在几个时间点上及时收集数据。这些离散点沿着垂直线,在轴向上有多条线。这使得数据集有效地为4D。 例如,假设我在(X,Y)坐标处具有收集点: (0,0),(1,0),(2,0) (0,1),(1,1),(2,1) (0,2),(1,2),(2,2) 并且在每个点上我都收集,其中P是压力,T是温度,U ,V是速度的X分量和Y分量。在模拟的每次迭代中,将为所有9个收集点存储这些变量。因此,我所有的数据在空间的每个离散点上都是连续的。{ P,Ť,U,V}{P,Ť,ü,V}\{P,T,U,V\}PPPŤŤTü,Vü,VU,V 例如,单个点的数据如下所示: 我有兴趣在所有时间显示所有点的压力以显示垂直和轴向波。如果要沿着一条直线(垂直或轴向)执行此操作,则可以使用带有轴(Y,时间,压力)的瀑布图。但是,如果我有3条垂直线和3条轴向线,那将是6个瀑布图,以完整地了解两个方向上的波动。空间坐标是离散变量,而场(在本例中为“压力”)和时间是连续的。 Ť ≈ 0.000125Ť≈0.000125t\approx0.000125 有没有一种方法可以一次显示所有内容?通常可以添加颜色以使“第四”维可见,但是还有另一种可能的方法吗?我计划尽可能多地绘制它,以查看是否有任何内容可以揭示其他人没有的信息,因此请提出任何想法。 如果模拟是3D并且我有5D结果数据集怎么办?这会改变可能的可视化方法吗?

8
设计和生产地块的基本规则是什么?
背景: 以前在交叉验证中,我们对以下问题有疑问: 准备地块时的最佳做法是什么? 网上有什么好的技巧可以绘制两个数字变量? @david在对该问题的评论中建议,我们应该有一个社区Wiki问题,其中每个答案都可以由一个可视化规则来进行社区投票。 题 设计和产生数据图形表示的基本规则是什么? 规则 每个答案一个规则 理想情况下,请简要说明您为什么认为这是一个好主意 最好附有良好实践和不良实践示例(代码和图像)的答案。

10
学习用于创建数据可视化的资源?
我对学习如何创建您在http://flowingdata.com上看到的可视化类型感兴趣,并且信息很漂亮。编辑:意思是,可视化本身很有趣-有点像《纽约时报》的图形,而不是快速的报表。 用于创建这些工具的工具有哪些-大多数是Adobe Illustrator / Photoshop吗?有什么好的资源(书籍,网站等)来学习如何使用这些工具进行数据可视化? 我知道什么我想可视化来的样子(我熟悉的设计原则,例如,从塔夫特的书),但我不知道如何来创建它们。

1
使用ggplot2在构面中删除未使用的级别
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 是否可以删除ggplot2s方面未使用的级别?这是我的代码: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") 我尝试了drop=T开关,但没有帮助。我究竟做错了什么?

4
使用R或SPSS可视化Likert响应
我分为2组(A组为43个,B组为39个),有82位受访者完成了对65个李克特问题的调查,每个问题的范围为1-5(非常同意-非常不同意)。因此,我有一个具有66列(每个问题1个+ 1表示组分配)和82行(每个回答者1个)的数据框。 使用R或SPSS可以使任何人都知道可视化此数据的好方法。 我需要这样的东西:( 来自Jason Bryer) 但是我无法使代码的最初部分起作用。另外,我找到了一个很好的示例,展示了如何从以前的交叉验证帖子中可视化Likert数据:可视化Likert项目响应数据,但是没有有关如何使用R或SPSS创建这些居中计数图或堆积条形图的指南或说明。

9
图表,图表和绘图类型的库
作为全面的数据表示技术画廊,您会推荐什么?当您正在考虑呈现数据的更好方法时,可以使用该参考源吗? 我已经确定了以下内容,但如果可以添加您的内容,我们将非常高兴: 在线画廊: http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 http://zh.wikipedia.org/wiki/类别:Statistical_charts_and_diagrams (不提供一页图形库) http://docs.ggplot2.org/current/ http://www.itl.nist.gov/div898/handbook/graphgal.htm http://scikit-learn.org/stable/auto_examples/index.html http://www.stata.com/support/faqs/graphics/gph/stata-graphs/ http://shiny.rstudio.com/gallery/ https://bl.ocks.org/(交互式和矢量图形) http://www.texample.net/tikz/examples/(带有代码的TikZ和PGP可视化) 书籍(散布在页面上的图表): Edward R. Tufte,定量信息的可视化显示 内森·丘(Nathan Yau),数据点

4
如果仪表图不好,为什么汽车有仪表?
似乎数据可视化专家通常不赞成使用量表(请参见此处:您如何称呼看起来像半圆形饼图并带有指示百分比的针的图表?)。主要原因是规格表的数据墨比低。 自从我接触了这些概念(几本Tufte书)以来,我就普遍同意它们,但是今天却使我感到奇怪:如果仪表在信息交流方面如此低效,那么为什么汽车/船只/飞机上有很多仪表?他们的仪表板?这个问题的答案是否与为大型企业创建软件仪表板有关? 编辑以包括我发现的一些其他信息: 我找到了一个术语“玻璃座舱”,它是指将其机械仪表替换为LCD屏幕的喷枪座舱。这使韦恩提出的“惯例”论点具有可信度。 http://en.wikipedia.org/wiki/Glass_cockpit 这是一个iPad应用程序,可提供类似于仪表板的汽车遥测读数,而无需查看仪表。 http://itunes.apple.com/us/app/dashcommand-obd-ii-gauge-dashboards/id321293183?mt=8 我还发现了一个汽车数字仪表的总体示例(建议观看者自行决定)。 http://www.chetcodigital.com/index-Automotive.htm

1
在R中绘制迷你图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想使用R来绘制这样的内容: 跟踪坐标,宽度,高度等似乎是可能的,但是非常复杂。从直觉上看,最好将每个像元视为一个新图并转换每个像元的坐标。有没有办法在R中做到这一点? 谢谢!

4
删除R图中的边界以实现Tufte轴
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 考虑下图: x <- 1:100 y1 <- rnorm(100) y2 <- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) mtext("blue line", side=4, line=2.5, at=100) 如何删除自动生成的边框并仅保留轴线以实现Tufte的样式?


2
添加的变量图(部分回归图)在多元回归中有什么解释?
我有一个电影数据集模型,并使用了回归: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 给出了输出: 现在,我第一次尝试使用名为“添加的变量图”的方法,得到以下输出: car::avPlots(model, id.n=2, id.cex=0.7) 问题是我试图使用google理解添加的变量图,但是我无法理解它的深度,看到该图我理解了它基于与输出相关的每个输入变量的偏斜表示。 我能否获得更多细节,例如其如何证明数据规范化?

4
如何最好地可视化三组中许多比例的差异?
我正在尝试从视觉上比较三种不同的新闻出版物如何涵盖不同的主题(通过LDA主题模型确定)。我有两种相关的方法,但是从同事那里收到很多反馈,说这不是很直观。我希望外面有人对它可视化有更好的主意。 在第一个图中,我显示了每个出版物中每个主题的比例,如下所示: 对于几乎所有与我交谈过的人来说,这都是非常简单直观的。但是,很难看到出版物之间的差异。哪个报纸报道的话题更多? 为此,我绘制了主题比例最高的出版物与主题排名第二的出版物之间的差异,并按主题排名最高的出版物进行了区分。像这样: 因此,举例来说,足球的巨大标杆实际上就是al-Ahram English到Daily News Egypt(足球报道中排名第二)之间的距离,并且由于Al-Ahram排名第一而被涂成了红色。同样,审判是绿色的,因为“埃及独立报”的比例最高,条形大小是“埃及独立报”与“每日新闻埃及报”之间的距离(再次为#2)。 我必须在两段中全部解释这一事实,这是一个很肯定的迹象,表明该图未通过自给自足测试。仅仅看一下就很难说出到底发生了什么。 关于如何以更直观的方式在视觉上突出显示每个主题的主要出版物的任何一般建议? 编辑:要使用的数据:这是dputR的输出以及CSV文件。 编辑2:这是一个初步的点图版本,其点的直径与主题在主体中的比例成正比(这是主题最初的排序方式)。尽管我仍然需要进行一些微调,但感觉比以前更加直观。感谢大家!


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.