Answers:
出于情节的目的,这是很清楚的。通常,有两种不同的目标:您可以自己绘制图以评估您所做的假设并指导数据分析过程,或者可以绘制图以将结果传达给其他人。这些不一样;例如,您的地块/分析的许多查看者/读者可能在统计学上并不成熟,并且可能不熟悉等方差及其在t检验中的作用。您希望您的地块甚至向喜欢他们的消费者传达有关数据的重要信息。他们暗中相信您已正确完成工作。从您的问题设置中,我认为您是在追随后者。
实际上,用于将t检验1的结果传达给其他人的最常见和可接受的图(不考虑它实际上是否最合适)是带有标准误差条的均值条形图。这确实与t检验非常匹配,因为t检验使用其标准误差比较了两个均值。当您有两个独立的组时,即使对于统计学上不成熟的人,这也将产生直观的图像,并且(数据愿意的)人们可以“立即看到他们可能来自两个不同的人群”。这是一个使用@Tim数据的简单示例:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
也就是说,数据可视化专家通常不屑一顾。它们通常被戏称为“炸药图”(参见为什么炸药图不好)。特别是,如果您只有少量数据,通常建议您仅显示数据本身。如果这些点重叠,则可以将它们水平抖动(添加少量随机噪声),以使其不再重叠。因为t检验基本上是关于均值和标准误差的,所以最好将均值和标准误差覆盖在这样的图上。这是一个不同的版本:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
如果您有大量数据,则可以通过箱线图快速了解分布情况,也可以在其中叠加均值和SE。
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
简单的数据图和箱形图非常简单,即使大多数人在统计上不是很熟练,他们也将能够理解它们。但是请记住,使用t检验比较您的组时,这些都不容易评估有效性。这些目标最好由不同类型的地块实现。
1.请注意,本讨论假设独立的样本t检验。这些图可以与相关样本t检验一起使用,但在这种情况下也可能会产生误导(参见,在受试者内部研究中使用误差线表示平均值是否错误?)。
> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
>
> t.test(nonsmokers, smokers)
Welch Two Sample t-test
data: nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.1628205 5.0371795
sample estimates:
mean of x mean of y
20.1 17.5
实际上,箱线图通常用于“非正式”假设检验,例如Yoav Benjamini在1988年的论文中所述 打开箱线图》中描述的:
常规箱线图以批中值的近似置信区间补充,显示为从箱体侧面取出的一对楔子。这些置信区间的构建方式是,当两个不同盒形图的凹口不重叠时,它们的中位数会显着不同。(...)由于置信区间的公式是四分位数范围除以批大小的平方根的常数,因此可以从楔形的长度相对于盒子的长度来感知后者。
也可以看看: 仅使用箱形图中的汇总数据进行T检验
在这种情况下进行测试。这种图的主要优点是,您可以通过查看直线的斜率轻松判断均值差异的大小。不利之处可能在于,这可能意味着均值之间存在某种“连续性”(即,您有成对的样本)。
首先要考虑的是该图形在其文本所在的文本中的信息值。如果该图没有实质性地增加对纸张的理解或与纸张的其他元素重复,则不应包括在内。
这主要是@Tim和@gung的有用答案的变体,但是这些图形无法放入注释中。
小但可能有用的要点:
如果存在联系,则@gung所示的带状图或点状图需要进行修改,如示例数据中所示。积分可堆叠或抖动,或在下面的例子中,你可以使用混合位数,箱线图由埃马纽埃尔·帕岑的建议(最方便的参考可能是1979年非参数统计数据建模。 杂志,美国统计协会74:105-121)。这也具有其他优点,即强调如果一半的数据在框内,那么一半的数据也在框外,并且实质上显示了分布的所有细节。在这里只有两组的情况下,任何更常规的箱形图都可以是最小的,甚至是骨架的显示。有些人会将其视为一种美德,但仍有余地可以显示更多细节。相反的论点是,标有特定点的箱形图,特别是那些距离四分位数最近的1.5 IQR的点,对用户是一个明确的警告:当心t检验,因为尾部可能有一些点应该担心。
您自然可以在箱形图中添加均值的指示,这通常是很容易做到的。通常添加其他标记或点符号。在这里,我们选择参考线。
抽烟者和非抽烟者的分位数箱图。方框显示中位数和四分位数。蓝色的水平线表示平均值。
注意。该图形是在Stata中创建的。这是那些有兴趣的代码。stripplot
必须预先安装ssc inst stripplot
。
clear
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers))
set obs `n'
gen smokers = smokers[1, _n]
gen nonsmokers = nonsmokers[1, _n]
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge)