将法线曲线叠加到R中的直方图


69

我设法在线找到了如何在R中将正常曲线叠加到直方图上,但是我想保留直方图的正常“频率” y轴。请参见下面的两个代码段,并注意在第二个y轴中如何用“密度”替换y轴。我如何像第一个图中那样将y轴保持为“频率”。

作为奖励:我也想在密度曲线上标记SD区域(最高3 SD)。我怎样才能做到这一点?我试过了abline,但是线延伸到了图形的顶部,看起来很难看。

g = d$mydata
hist(g)

在此处输入图片说明

g = d$mydata
m<-mean(g)
std<-sqrt(var(g))
hist(g, density=20, breaks=20, prob=TRUE, 
     xlab="x-variable", ylim=c(0, 2), 
     main="normal curve over histogram")
curve(dnorm(x, mean=m, sd=std), 
      col="darkblue", lwd=2, add=TRUE, yaxt="n")

在此处输入图片说明

请参见上图中的y轴如何显示“密度”。我想让它成为“频率”。


2
您可以通过应用此答案中
Josh O'Brien

尽管我应该补充一点,对于连续密度曲线的“频率”的解释实际上还不清楚。
乔什·奥布莱恩

我了解,对此表示满意。您给我的链接效果很好,只是它没有给出正态分布,而是有多个拐点的密度曲线。我想要上图所示的法线。有任何想法吗?
StanLe

1
@StanLe只是在进行评论以确保您看到我的编辑,这都将我的方法应用到正常密度而不是任意密度,并以标准差添加线。
格里戈尔·托马斯

1
请参阅此处的ggplot2选项。
JWilliman

Answers:


58

这是我发现的一种好方法:

h <- hist(g, breaks = 10, density = 10,
          col = "lightgray", xlab = "Accuracy", main = "Overall") 
xfit <- seq(min(g), max(g), length = 40) 
yfit <- dnorm(xfit, mean = mean(g), sd = sd(g)) 
yfit <- yfit * diff(h$mids[1:2]) * length(g) 

lines(xfit, yfit, col = "black", lwd = 2)

真好!您也可以使用freq = FALSEinhist摆脱的缩放比例yfit
Mikael

4
使用h $ mids [1:2]而不是整个向量有什么意义?
Zach 2016年

1
我相信h $ mids [1:2]的意义仅在于它用于计算垃圾箱的大小。由于它们都是相同的大小,因此仅通过查找前两者之间的差异就可以得出结果。如果每个垃圾箱的范围是1
根本不需要这样做。– dpwrussell

1
如果此代码示例可以由其他人运行,那就太好了。
baxx

@baxx有关实现,请参见下面的答案。它包装了现有hist()功能。
MS Berends

31

您只需要找到合适的乘数即可轻松地从hist对象中计算得出。

myhist <- hist(mtcars$mpg)
multiplier <- myhist$counts / myhist$density
mydensity <- density(mtcars$mpg)
mydensity$y <- mydensity$y * multiplier[1]

plot(myhist)
lines(mydensity)

在此处输入图片说明

一个更完整的版本,具有正常密度,并且每个标准线均偏离平均值(包括平均值):

myhist <- hist(mtcars$mpg)
multiplier <- myhist$counts / myhist$density
mydensity <- density(mtcars$mpg)
mydensity$y <- mydensity$y * multiplier[1]

plot(myhist)
lines(mydensity)

myx <- seq(min(mtcars$mpg), max(mtcars$mpg), length.out= 100)
mymean <- mean(mtcars$mpg)
mysd <- sd(mtcars$mpg)

normal <- dnorm(x = myx, mean = mymean, sd = mysd)
lines(myx, normal * multiplier[1], col = "blue", lwd = 2)

sd_x <- seq(mymean - 3 * mysd, mymean + 3 * mysd, by = mysd)
sd_y <- dnorm(x = sd_x, mean = mymean, sd = mysd) * multiplier[1]

segments(x0 = sd_x, y0= 0, x1 = sd_x, y1 = sd_y, col = "firebrick4", lwd = 2)

大!我一直在寻找这种解决方案。现在我意识到问题出在密度的y尺度上。
达尔文电脑

4

这是上述StanLe的答案的实现,也修复了当使用密度时他的答案不会产生曲线的情况。

这将替换现有但隐藏的hist.default()函数,仅添加normalcurve参数(默认为TRUE)。

前三行支持roxygen2进行程序包构建。

#' @noRd
#' @exportMethod hist.default
#' @export
hist.default <- function(x,
                         breaks = "Sturges",
                         freq = NULL,
                         include.lowest = TRUE,
                         normalcurve = TRUE,
                         right = TRUE,
                         density = NULL,
                         angle = 45,
                         col = NULL,
                         border = NULL,
                         main = paste("Histogram of", xname),
                         ylim = NULL,
                         xlab = xname,
                         ylab = NULL,
                         axes = TRUE,
                         plot = TRUE,
                         labels = FALSE,
                         warn.unused = TRUE,
                         ...)  {

  # https://stackoverflow.com/a/20078645/4575331
  xname <- paste(deparse(substitute(x), 500), collapse = "\n")

  suppressWarnings(
    h <- graphics::hist.default(
      x = x,
      breaks = breaks,
      freq = freq,
      include.lowest = include.lowest,
      right = right,
      density = density,
      angle = angle,
      col = col,
      border = border,
      main = main,
      ylim = ylim,
      xlab = xlab,
      ylab = ylab,
      axes = axes,
      plot = plot,
      labels = labels,
      warn.unused = warn.unused,
      ...
    )
  )

  if (normalcurve == TRUE & plot == TRUE) {
    x <- x[!is.na(x)]
    xfit <- seq(min(x), max(x), length = 40)
    yfit <- dnorm(xfit, mean = mean(x), sd = sd(x))
    if (isTRUE(freq) | (is.null(freq) & is.null(density))) {
      yfit <- yfit * diff(h$mids[1:2]) * length(x)
    }
    lines(xfit, yfit, col = "black", lwd = 2)
  }

  if (plot == TRUE) {
    invisible(h)
  } else {
    h
  }
}

快速示例:

hist(g)

在此处输入图片说明

对于日期,则有所不同。以供参考:

#' @noRd
#' @exportMethod hist.Date
#' @export
hist.Date <- function(x,
                      breaks = "months",
                      format = "%b",
                      normalcurve = TRUE,
                      xlab = xname,
                      plot = TRUE,
                      freq = NULL,
                      density = NULL,
                      start.on.monday = TRUE,
                      right = TRUE,
                      ...)  {

  # https://stackoverflow.com/a/20078645/4575331
  xname <- paste(deparse(substitute(x), 500), collapse = "\n")

  suppressWarnings(
    h <- graphics:::hist.Date(
      x = x,
      breaks = breaks,
      format = format,
      freq = freq,
      density = density,
      start.on.monday = start.on.monday,
      right = right,
      xlab = xlab,
      plot = plot,
      ...
    )
  )

  if (normalcurve == TRUE & plot == TRUE) {
    x <- x[!is.na(x)]
    xfit <- seq(min(x), max(x), length = 40)
    yfit <- dnorm(xfit, mean = mean(x), sd = sd(x))
    if (isTRUE(freq) | (is.null(freq) & is.null(density))) {
      yfit <- as.double(yfit) * diff(h$mids[1:2]) * length(x)
    }
    lines(xfit, yfit, col = "black", lwd = 2)
  }

  if (plot == TRUE) {
    invisible(h)
  } else {
    h
  }
}

1
很好,这已经在某个地方实现了吗?我需要更新{graphics}以获得此信息吗?
法比安·哈伯萨克

不,很遗憾,这在Base R中不可用。请随意将其添加到程序包中并发布到CRAN中:)
MS Berends
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.