Questions tagged «ggplot2»

ggplot2是基于“图形语法”的原理的R的增强的绘图库。使用此标签来处理* a涉及问题(a)涉及ggplot2作为问题和/或预期答案的关键部分的问题,以及(b)不仅仅是关于如何使用ggplot2的问题。

2
如何在ggplot2中更改图例的标题?[关闭]
我在ggplot2中绘制了一个图表,以汇总来自2 x 4 x 3单元格数据集的数据。我已经能够使用制作2级变量的面板,并使用facet_grid(. ~ Age)来设置x和y轴aes(x=4leveledVariable, y=DV)。aes(group=3leveledvariable, lty=3leveledvariable)到目前为止,我以前一直在制作情节。这给了我一个由2级变量覆盖的可视化效果,X轴代表4级变量,并且在面板上为3级变量绘制了不同的线。但是3级变量的键以3级变量的名称作为标题,我希望它成为一个具有字符空间的标题。如何重命名图例的标题? 我尝试过的东西似乎不起作用(abp我的ggplot2对象在哪里): abp <- abp + opts(legend.title="Town Name") abp <- abp + scale_fill_continuous("Town Name") abp <- abp + opts(group="Town Name") abp <- abp + opts(legend.title="Town Name") 示例数据: ex.data <- data.frame(DV=rnorm(2*4*3), V2=rep(1:2,each=4*3), V4=rep(1:4,each=3), V3=1:3)

6
如何使用R中的ROC曲线确定最佳截止点及其置信区间?
我有一项测试数据,可用于区分正常细胞和肿瘤细胞。根据ROC曲线,此目的看起来不错(曲线下的面积为0.9): 我的问题是: 如何确定该测试的临界点及其置信区间,在该区间应该将读数判断为不明确? 可视化此最佳方法(使用ggplot2)是什么? 图是使用ROCR和ggplot2包呈现的: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …

3
如何在ggplot2中的散点图区域周围绘制整洁的多边形
如何在散点图上的一组点周围添加整洁的多边形?我正在使用ggplot2,但对的结果感到失望geom_polygon。 数据集在该处,作为制表符分隔的文本文件。下图显示了一些国家/地区对健康和失业态度的两种衡量标准: 我想从geom_density2d花哨的少,但从经验上更正确geom_polygon。未排序数据的结果无济于事: 如何在最小-最大yx值周围绘制充当轮廓路径的“整洁”多边形?我尝试对数据进行排序无济于事。 码: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) 该d目的是通过获得该CSV文件。 解: 感谢Wayne,Andy W和其他人的指导!数据,代码和图形已发布到GitHub上。结果看起来像这样:

4
网格线和灰色背景是否杂乱无章,是否应仅在例外情况下使用?
似乎大多数主管部门都同意,根据任何合理的定义,地块中的深色或其他突出的网格线都是“垃圾邮件”,并分散了查看者对图表主体中消息的注意力。因此,我不会为这一点提供参考。 同样,我们都同意,会有那个时代苍白网格线,以创建参考观众将是必要的。正如本文所指出的,Tufte认为偶尔需要(和使用)网格线。我同意ggplot2中Hadley Wickham的方法,在需要使用这些网格线时,可以在浅灰色背景上将其变为白色。 但是我不确定的是,是否像ggplot2一样,这些网格线和灰色背景是否应为默认值。例如,除了将白色网格线浮雕化以外,似乎没有其他理由使用灰色背景-这进一步引出了是否需要其中一个的问题。我最近开始使用ggplot2满足我的大多数图形需求,并且认为它很棒,但它对我以前使用的图形的“无框,无背景,无网格线”方法提出了挑战。我曾经认为这gridlines=OFF应该是我的默认设置,除非有特殊的原因要添加它们-例如,基本上是本文推荐的方法。 当然,在ggplot2中定义主题很简单,以避免出现网格线和背景阴影(事实上,我们已经在我的工作中做到了这一点),但是ggplot2的方法太棒了,通常它的默认美学选择很好,我想知道是否我想念一些东西。 所以-对于这一点的任何参考,我将不胜感激。我确信它已经经过了深思熟虑(例如,Hadley Wickham在设置ggplot2默认值时),而且我很乐意指出正确的方向。我能找到的最好的是ggplot2 Google网上论坛上的几个链接,但是在给定的链接上没有克利夫兰最有用的参考。

1
如何在ggplot2中“躲避” geom_point的位置?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在R中使用ggplot2进行如下绘制: 误差线相互重叠,看起来确实很乱。如何分隔不同索引的错误栏?我使用了position =“ dodge”,但似乎无法正常工作。这是我的代码的主要部分: plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")

1
使用ggplot2在构面中删除未使用的级别
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 是否可以删除ggplot2s方面未使用的级别?这是我的代码: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") 我尝试了drop=T开关,但没有帮助。我究竟做错了什么?

2
墨水与数据的比例和绘图背景
我注意到,许多“最先进的”绘图程序包和主题以及许多杰出的数据人员都使用灰色背景绘制绘图。以下是几个示例: ggplot2: Nate Silver的fourthirtyeight.com: 虽然在上面的第一个示例(ggplot2)中,有人可能会争辩说使用灰色背景会减少网格线所需的墨水,但第二种情况肯定不是这种情况。与白色或透明背景相比,使用灰色背景有什么优势?

2
如何在ggplot2中预测或扩展回归线?
我有一个包含两个时间序列的数据框:Emacs和Firefox发行版的日期和版本号。使用一个ggplot2命令,很容易制作一个使用黄土的图表(这种方式看起来有点可笑,我不介意)将点变成线。 我该如何将线延伸到未来?我想确定Emacs和Firefox版本号何时何地交叉,如果有办法显示错误范围,那就更好了。 鉴于ggplot2正在绘制线条,它必须有一个模型,但我看不出如何告诉它扩展线条,或取出模型并对其进行处理。 > library(ggplot2) > programs <- read.csv("http://www.miskatonic.org/files/se-program-versions.csv") > programs$Date <- as.Date(programs$Date, format="%B %d, %Y") > head(programs) Program Version Date 1 Emacs 24.1 2012-06-10 2 Emacs 23.4 2012-01-29 3 Emacs 23.3 2011-03-10 4 Emacs 23.2 2010-05-08 5 Emacs 23.1 2009-07-29 6 Emacs 22.3 2008-09-05 > head(subset(programs, Program == "Firefox")) …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


1
如何使用ggplot绘制楼梯台阶功能?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我有这样的图: 用于生成它的R代码是: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") + scale_x_continuous(name= "Operations performed") 我想要这样的东西: …

4
与重尾分布相对应的Boxplot吗?
对于近似正态分布的数据,箱形图是快速可视化数据的中值和散布以及任何异常值的好方法。 但是,对于更重尾的分布,很多点显示为离群值,因为离群被定义为不在IQR的固定因子范围内,而对于重尾分布,这种情况当然会更频繁地发生。 那么人们使用什么可视化此类数据呢?还有更适应的东西吗?如果重要的话,我在R上使用ggplot。

2
关于R中使用ggplot2的两个因素的箱线图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我对R和R中的任何软件包都是新手。我查看了ggplot2文档,但找不到此文件。我想要boxthis关于两个因子f1和的变量的箱形图f2。那是假设f1和f2都是因子变量,并且每个变量都有两个值,并且boxthis是连续变量。我想要得到的曲线图4个箱图,每个对应于一个组合从所述可能的组合f1和f2可以采取。我认为使用R中的基本功能,可以通过 > boxplot(boxthis ~ f1 * f2 , data = datasetname) 在此先感谢您的帮助。
13 r  boxplot  ggplot2 

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.