将两个直方图按相同比例放置的最佳方法?


14

假设我有两个分布要详细比较,即以使形状,比例和偏移容易看到的方式比较。做到这一点的一种好方法是绘制每个分布的直方图,将它们放在相同的X比例尺上,然后在另一个下方堆叠。

执行此操作时,应如何进行装箱?即使一个分布比另一个分布更分散,两个直方图是否也应使用​​相同的bin边界,如下面的图像1所示?是否应在缩放之前针对每个直方图分别进行合并,如下面的图像2所示?在这方面是否有很好的经验法则?

图片1 图片2


5
QQ绘图是对经验分布进行精确比较的更好的工具。使用它们可以完全避免装箱问题。
ub

3
@whuber:同意,如果你只是想的两个分布是否有不同的敏感可视化,但直方图的方法是恕我直言更好,如果你想详细了解如何他们是不同的。
dsimcha 2011年

3
@dsimcha我的经历正好相反。QQ图清楚地(以定量方式)显示了比例,位置和形状的差异,尤其是在尾巴的厚度上。(例如,尝试直接从直方图中比较两个SD:当它们的值接近时,这是不可能的。在QQ绘图上,您只需要比较斜率,这是快速且相对准确的。)QQ绘图在条件上不如直方图挑选模式,但直方图无法做到这一点,除非收集到可观的数据量并做出了不错的垃圾箱选择。
ub

1
我同意QQ绘图是最好的解决方案,尽管它们不能避免垃圾箱问题,它们只是迫使您将垃圾箱放置在特定的位置(分位数:-)。另一方面,这确实意味着垃圾箱不会,的确不应由两个发行版共享。
共轭木

1
@dsimcha,我认为诸如年龄/性别图之类的东西可能是有用的图片。无论如何,为什么要为此使用直方图?只需直接绘制分布函数即可。但是,如果您在玩经验游戏,那么QQ情节建议是最佳选择。
Dmitrij Celov'3

Answers:


7

我认为您需要使用相同的垃圾箱。否则,头脑会在你身上欺骗。与图像#1中的图像相比,图像(2)中的(0,2)相对于图像(0,1)更分散。与统计无关。看起来Normal(0,1)正在进行“饮食”。

-拉尔夫·温特斯

中点和直方图端点也可以改变对色散的感知。请注意,在此小程序中,最大bin选择范围> 1.5-〜5,而最小bin选择范围<1-> 5.5

http://www.stat.sc.edu/~west/javahtml/Histogram.html


1
您能为这种观点提供一些理论上的证明吗?
Whuber

不,只是一个意见。但是,如果有时间,我将从零售包装界(瘦身感)开始研究,并结合一些Tufte的工作。
拉尔夫·温特斯

@whuber:这主要与我们的大脑处理信息的方式有关。当有较小的垃圾箱时,我们的思想也会“缩小”曲线的边界。尝试反转图中垃圾箱的大小。#2明白我的意思。
nico

@nico是的,这个问题有一个感知因素。但是统计问题是最重要的,因为它具有更大的影响:较小的箱==>箱中的样本变异性更大==>更加“参差不齐的”直方图==>比较难度更大。因此,海事组织,任何有价值的答案都应至少得到统计理论的支持。
ub

@whuber:我指的是两个图像中的分布看起来不同。当然,它们的外观与它们的分散程度无关。
nico

2

另一种方法是在同一图上绘制不同的分布,并使用诸如alphain之类的参数ggplot2来解决过度绘制问题。此方法的效用取决于分布中的差异或相似性,因为它们将使用相同的箱进行绘制。另一种选择是显示每个分布的平滑密度曲线。这是这些选项以及线程中讨论的其他选项的示例:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))

这是否只是将问题推到选择适当的内核宽度的问题上,以及是否(以及如何)可以使用不同的内核宽度比较两个平滑?
ub

1
@whuber-有效点。我并不是在建议密度曲线是最终使用的所有方法,只是提供其他替代方法。从这篇文章中可以明显看出,任何方法都各有利弊,因此将其作为另一个可行的替代方案。
Chase

有鉴于此,我赞成您的答案+1。
ub

0

因此,要保持相同的纸箱尺寸或保持相同的纸箱数量是一个问题吗?我可以看到双方的论点。解决方法是先将值标准化。然后,您可以同时维护两者。


当两个样本大小相似时,这将起作用。但是,当它们不同时,通用的bin大小(即使以标准化单位表示)可能适合一个或另一个直方图,但不适用于两个直方图。您将如何处理该案?
Whuber

也许我们正在考虑标准化的不同含义。我的意思是说,我链接到的那个位置,例如,如果一个总体的stdev为5,而另一个总体的stdev为10,则在标准化之后,他们两个的stdev都将为1。 bin大小,因为每个bin具有相当数量的像素和数据。也许您正在遇到一个更大的问题,即“适当的存储区大小”有点
荒唐,

我们具有“标准化”的相同含义。选择垃圾箱的大小需要判断和了解上下文,但这很难将其描述为“ 妖术 ”:例如,参见stats.stackexchange.com/q/798/919
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.