什么是合适的图来说明两个序数变量之间的关系?
我能想到的几种选择:
- 散点图,添加了随机抖动以使停止点彼此隐藏。显然是标准图形-Minitab将其称为“个体值图”。在我看来,这可能会产生误导,因为它在视觉上鼓励在序数级别之间进行线性插值,就好像数据来自间隔刻度。
- 调整散点图,以便点的大小(面积)代表级别组合的频率,而不是为每个采样单位绘制一个点。我偶尔在实践中看到过这样的情节。它们可能很难阅读,但是这些点位于规则排列的点阵上,这在一定程度上克服了对抖动分散图的批评,即它在视觉上“使数据间隔”。
- 特别是,如果将变量之一视为因变量,则按独立变量级别分组的箱形图。如果因变量的级别数不够高(非常“平坦”,缺少晶须或什至更糟的四分位数塌陷,使得无法通过视觉识别中位数),则可能看起来很糟糕,但是至少引起了人们对中位数和四分位数的关注序数变量的相关描述统计量。
- 带有热图以指示频率的单元格值表或空白网格。视觉上与散点图不同,但从概念上讲类似于散点图,点区域显示频率。
还有其他想法,或关于哪种情节更可取的想法?是否有某些研究领域将某些序数对纵坐标图视为标准?(我似乎还记得频率热图在基因组学中很普遍,但我怀疑频率相对于标称值与标称值更常见。)我也很希望从Agresti那里获得有关好的标准参考的建议。
如果有人想用图解来说明,则可以使用伪造样本数据的R代码。
“锻炼对您有多重要?” 1 =一点都不重要,2 =一点都不重要,3 =既不重要也不重要,4 =有点重要,5 =非常重要。
“您多长时间定期跑步10分钟或更长时间?” 1 =永不,2 =每两周少于一次,3 =每1或2周一次,4 =每周2或3次,5 =每周4次或更多。
如果将“经常”视为一个因变量而将“重要性”视为一个自变量是很自然的话,则可以用图来区分两者。
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
我发现一个有关连续变量的相关问题很有帮助,也许是一个有用的起点:研究两个数值变量之间的关系时,散点图的替代方案是什么?