如何按比例绘制小提琴图以进行比较?


14

我正在尝试绘制小提琴图,并想知道是否存在公认的最佳实践,可以在各个组之间进行缩放。这是我使用R mtcars数据集尝试过的三个选项(1973年的Motor Trend Cars,在此处找到)。

等宽

似乎是原始纸张 *和R的vioplot作用(示例)。适合比较形状。

等面积小提琴图

均等面积

由于每个图都是概率图,因此感觉不错,因此在某个坐标空间中每个图的面积应等于1.0。适用于比较每个组中的密度,但如果将图重叠,则似乎更合适。

等宽小提琴图

加权面积

面积相等,但按观察次数加权。6缸变得相对稀薄,因为这些汽车较少。适用于比较各组的密度。

加权面积小提琴图

*小提琴图:箱形图-密度踪迹协同效应(DOI:10.2307 / 2685478)


1
绘图的目的将在很大程度上决定哪种解决方案是合适的。那您想和他们一起做什么呢?
Whuber

@whuber好的问题,尽管我没有直接的答案。我正在尝试为EDA提供图形,并正在寻找一个良好的常规默认值(以及其他选项是否足够有用以浮出水面)。
xan 2011年

我想建议您控制绘图以适合您的目的,而不要接受某些默认设置。
ub

我建议您的“加权区域”版本是“适合比较人群的子组”,因为增加宽度以获得整个人群的形状可能很有意义。
亨利

我更喜欢面积相等,以保持分布形状的视觉效果。然后在图上添加温度计,以显示样本量,或者仅在小提琴旁边使用样本量的文本表示。
Frank Harrell'2

Answers:


4

箱形图用于分配的示意图。小提琴图只是盒图,其中Q1,Q2和Q3盒被大范围的分位数代替。因此,我认为可以接受的做法是在各个组之间使用统一的宽度。

但是,您提出了一个很好的观点:应该如何比较组之间的密度?答案取决于您是将每个群体视为自己的种群,还是作为子种群。

Σ一世P一世=1个


小提琴图最初是引入并定义为混合箱图和密度曲线。谷歌的快速浏览显示,实际上,由于小提琴图忽略了盒子,所以许多图都公开了,许多图没有显示任何分位数。因此,这里的定义是开放的。
尼克·考克斯

5

老实说,我认为您是从错误的方向进行操作。这三个图都清楚地告诉您有价值的信息-否则,您将不会考虑使用哪个图。探索性数据分析与了解您的数据有关。符合期望的地方。没有的地方。它如何影响多个变量。

做EDA是评估我们的默认值,无论是他们分布或共线性的假设,这是将要使用的统计模型等方面都非常合理。因此,“默认” EDA的概念有些缺陷。

查看所有这些内容-或至少查看所有与您要提出的问题有关的情节。在EDA阶段,没有理由将自己束缚在“有趣的事情”和“我要忽略的事情”之中。而且,如果我们只是通过默认值来提供数据,那么它并不是真正意义上的EDA。


+1启发了有关EDA的言论,尽管(对我而言)尚不清楚(对我而言)OP是否在EDA之后...
chl

@chl OP的一些评论暗示他就是这么做的。如果只是“这些中的哪一个更有用”,我担心答案会变得更加模棱两可:“那么,您想展示什么?”
Fomite 2011年

啊,我错过了那条评论……所以您的回复值得再次+1,但我不能:(
chl

4

那带宽呢?你想到了吗?

如果使用软件的默认设置来获取pdf,则很可能使用经验法则来获得高斯内核的最佳带宽。对于每个子集,此“最佳带宽”可能会有所不同。现在问问自己,形状是否仍具有可比性?可能是,人们用双重标准测量了相同的变量(内核密度估计)。

对于内核密度估计,已经开发了明确的规则来获得正确的带宽(某种形式的交叉验证),但是对于小提琴图,它们通常被忽略。当样本数量相差很大时,可能很重要。

我现在有这个问题。你怎么看待这件事?您如何解决?任何意见,不胜感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.