在直方图中绘制平均值是否合适?


13

在直方图中添加一条垂直线以可视化平均值是否“可行”?

对我来说似乎还可以,但是我从未在教科书之类的书中见过,所以我想知道是否有某种惯例不这样做?

该图是针对学期论文的,我只是想确保我不会意外破坏一些非常重要的潜规则。:)


为什么不。只是添加评论。平均值是直方图的汇总值。例如,您可以通过更改直方图的存储桶大小来更改信息的程度。但是,通常直方图提供的信息不只是平均值。实际上,您可以从直方图近似得出平均值。我认为这就是为什么通常不将它们一起提供的原因。
西蒙妮

有时会看到直方图的分布是重叠的(例如,根据我的经验,通常是使用样本均值和标准差绘制的正态分布。)与绘制一条垂直线(指示样本在何处)具有相同的作用(以及更多的作用)平均值就是曲线的峰值。)
James Stanley

Answers:


30

当然,为什么不?

均值直方图

这是一个示例(我通过一个简单的Google搜索发现了数十个示例):

历史均值和中位数

(图像来源是测量可用性博客,在这里。)

我看过均值,均值加上或减去标准差,各种分位数(例如中位数,四分位数,第10和第90个百分位数)都以各种方式显示。

您可以在信息的底部标记信息,而不是在曲线上划一条线,就像这样:

带边线箱图的直方图

有与整个顶部而不是底部,箱线图的示例(许多之一被发现)在这里

有时人们会在数据中标记:

带抖动的直方图
(由于值四舍五入为整数,并且您看不到相对密度,因此我略微抖动了数据位置。)

此页面上有一个在Stata中完成的此类示例(请参见此处的第三个示例)

直方图最好加上一些额外的信息- 它们可能会自己产生误导

您只需要注意说明您的情节是由什么组成的!(对于初学者来说,您想要比我在这里使用的标题和x轴标签更好的标签。在图形标题中加上解释,以解释您在上面标记的内容。)

-

最后一个情节:

带状图的直方图

-

我的情节是在R中生成的。

编辑:

正如@gung推测的那样,它abline(v=mean...被用来在整个图上绘制均线,并被用来绘制rug数据值(尽管我实际使用rug(jitter(...是因为数据被舍入为整数)。

这是一种在直方图和轴之间绘制箱形图的方法:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

我不会列出所有功能,但是您可以在帮助(?boxplot)中检查参数以找出它们的作用,然后自己使用它们。

但是,这不是一般的解决方案-我不保证它会像在这里一样正常工作(请注意,我已经更改了atand boxwex选项*)。如果您没有编写智能功能来处理所有事情,则必须注意所有事情,以确保它在做您想要的事情。

这是创建我使用的数据的方法(我试图显示Theil回归如何真正能够处理几个有影响力的异常值)。当我第一次回答这个问题时,碰巧是我正在玩的数据。

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

*-的适当值at约为-0.5倍boxwex;如果您编写一个函数来执行此操作,那将是一个很好的默认设置;boxwex需要以与箱图的y比例(高度)相关的方式进行比例缩放;我建议通常可以使用y上限的0.04到0.05倍。

边际图表的代码:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1,这些很好。关心添加代码吗?abline(v=mean(Davis2[,2]))rug(Davis2[,2])我猜,但是您是如何在其中插入箱形图的呢?
gung-恢复莫妮卡

1
@gung请参见编辑以获取简短详细信息,包括一个类似于带箱图的可复制示例。实际上,除了使用该boxplot函数的几个参数外,它的聪明之处还没有。在boxplot和之间,boxp您可以毫不费力地做一些非常漂亮的事情。
Glen_b-恢复莫妮卡2013年

世世代代的智慧:“如果您没有编写智能功能来处理所有事情,则必须注意所有事情以确保它在做您想要的事情” ;-)。
gung-恢复莫妮卡

是的 我甚至考虑写一些聪明的设定atboxwex等等...但充其量我只是做了几个地块那样的一年,而且每次都需要几秒钟到类型?箱线图并设置正确的选项。我认为只关注自己在做什么会更容易。
Glen_b-恢复莫妮卡

我编辑了@gung,以提供代码来创建我正在使用的Davis2数据。希望能有所帮助。
Glen_b-恢复莫妮卡

3

当然可以。只需确保清楚地标记/指出线的含义,并避免使绘图过于“忙碌”。

没有什么比传递过多信息以使其易于理解的图形更糟糕的了。该表通常被忽略,以简洁明了的方式显示摘要统计信息。


2

先前的答案很不错,但这是要添加的一个基本要素。

平均值是分布的重心,因此是直方图的枢轴点。这是分配平衡的地方。因此,存在相互关系:平均值不仅可以帮助您考虑直方图,而且直方图也可以帮助您考虑均值。当分布偏斜并且分布的平均值不一定在中间时,这甚至可能更有用。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.