如何可视化独立的两个样本t检验?


11

可视化独立的两个样本t检验结果的最常用方法是什么?是更常用的数字表还是某种图表?我们的目标是让一个随意的观察者看一下这个图,立即发现它们可能来自两个不同的人群。


在什么情况下被谁“接受”?“更常用”在哪里?
Glen_b-恢复莫妮卡

Answers:


18

出于情节的目的,这是很清楚的。通常,有两种不同的目标:您可以自己绘制图以评估您所做的假设并指导数据分析过程,或者可以绘制图以将结果传达给其他人。这些不一样;例如,您的地块/分析的许多查看者/读者可能在统计学上并不成熟,并且可能不熟悉等方差及其在t检验中的作用。您希望您的地块甚至向喜欢他们的消费者传达有关数据的重要信息。他们暗中相信您已正确完成工作。从您的问题设置中,我认为您是在追随后者。

实际上,用于将t检验1的结果传达给其他人的最常见和可接受的图(不考虑它实际上是否最合适)是带有标准误差条的均值条形图。这确实与t检验非常匹配,因为t检验使用其标准误差比较了两个均值。当您有两个独立的组时,即使对于统计学上不成熟的人,这也将产生直观的图像,并且(数据愿意的)人们可以“立即看到他们可能来自两个不同的人群”。这是一个使用@Tim数据的简单示例:

nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m        = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se       = c(sd(nonsmokers)/sqrt(length(nonsmokers)), 
             sd(smokers)/sqrt(length(smokers)))
windows()
  bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
  box()
  arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)

在此处输入图片说明

也就是说,数据可视化专家通常不屑一顾。它们通常被戏称为“炸药图”(参见为什么炸药图不好)。特别是,如果您只有少量数据,通常建议您仅显示数据本身。如果这些点重叠,则可以将它们水平抖动(添加少量随机噪声),以使其不再重叠。因为t检验基本上是关于均值和标准误差的,所以最好将均值和标准误差覆盖在这样的图上。这是一个不同的版本:

set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE, 
     xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)

在此处输入图片说明

如果您有大量数据,则可以通过箱线图快速了解分布情况,也可以在其中叠加均值和SE。

data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m  = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see

在此处输入图片说明

简单的数据图和箱形图非常简单,即使大多数人在统计上不是很熟练,他们也将能够理解它们。但是请记住,使用t检验比较您的组时,这些都不容易评估有效性。这些目标最好由不同类型的地块实现。

1.请注意,本讨论假设独立的样本t检验。这些图可以与相关样本t检验一起使用,但在这种情况下也可能会产生误导(参见,在受试者内部研究中使用误差线表示平均值是否错误?)。


使用bar + CI图的一个大问题是,有时差异在统计上是显着的,但CI重叠。鉴于“ bar + CI”图试图吸引通才读者,我们真的不想花时间解释这种额外的皱纹。
海森堡

@海森堡,我知道。没有适合所有场合和目的的单一理想情节。我也没有提到配置项,只有SE(尽管它等同于某些CI,具体取决于df)。重要性通常在图形标题中提到,并在正文中讨论。如果希望它在图本身中明确显示,则可以添加方括号和p值(例如,此处)。
gung-恢复莫妮卡

如果声音听起来有点激进,我会道歉。我只是有点iff异,最后,仍然没有一种优雅的方法可以在不做进一步说明的情况下向通才读者展示T检验。它可能归结为绘图:2个条形图显示带有SE的组均值,第三个条形图显示差异及其CI(如您的链接)。但是这种可视化显示了多余的信息(组均值与均值差),这也可能使听众感到困惑。
海森堡

@Heisenberg,除非我试图显示患者内部的t检验,否则我不会使用其他答案中的图。我认为以t检验呈现2条带SE的条通常可能会很好,并附有简单的图形标题。如果需要图中标出重要性则可以添加方括号或类似的内容(我通常认为没有必要)。
gung-恢复莫妮卡

14

Ť

> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
> 
> t.test(nonsmokers, smokers)

    Welch Two Sample t-test

data:  nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.1628205 5.0371795
sample estimates:
mean of x mean of y 
     20.1      17.5 

在此处输入图片说明

实际上,箱线图通常用于“非正式”假设检验,例如Yoav Benjamini在1988年的论文中所述 打开箱线图》中描述的

常规箱线图以批中值的近似置信区间补充,显示为从箱体侧面取出的一对楔子。这些置信区间的构建方式是,当两个不同盒形图的凹口不重叠时,它们的中位数会显着不同。(...)由于置信区间的公式是四分位数范围除以批大小的平方根的常数,因此可以从楔形的长度相对于盒子的长度来感知后者。

也可以看看: 仅使用箱形图中的汇总数据进行T检验

Ť

在此处输入图片说明

ŤŤŤ在这种情况下进行测试。这种图的主要优点是,您可以通过查看直线的斜率轻松判断均值差异的大小。不利之处可能在于,这可能意味着均值之间存在某种“连续性”(即,您有成对的样本)。

在此处输入图片说明

Ť

首先要考虑的是该图形在其文本所在的文本中的信息值。如果该图没有实质性地增加对纸张的理解或与纸张的其他元素重复,则不应包括在内。


4
即使在讨论t检验和方差分析的文章中,这确实很普遍,但这仍然是一个非凡的选择。箱形图没有直接显示t检验中涉及的任何数量。最低限度地,相关图应比箱形图显示平均值,并提供更多的分布细节。尾部的细节通常在解释测试中至关重要。
尼克·考克斯

好的,@ NickCox,仅出于可视化目的选择了数据集,但现在我将其更改为更合适的示例。
蒂姆

3
条形图(又名“炸药图”)具有极高的墨水:信息比率。
Frank Harrell

APA手册中的引文(我没有在上下文中进行检查)是很好的一般建议,但它本身并不是在这种情况下使用部分相关的箱形图的直接论据。自然,我同意箱线图可能非常有用,而且常常是相辅相成的,而且经常使用,但是我的第一点仍然是。
尼克·考克斯

@NickCox我不能说我不同意您的意见,但我仍然认为boxplot可以提供更多信息,并且即使它与t检验没有直接关系也不会重复t检验的结果。它简单,清晰和有用。
蒂姆

8

这主要是@Tim和@gung的有用答案的变体,但是这些图形无法放入注释中。

小但可能有用的要点:

  1. 如果存在联系,则@gung所示的带状图或点状图需要进行修改,如示例数据中所示。积分可堆叠或抖动,或在下面的例子中,你可以使用混合位数,箱线图由埃马纽埃尔·帕岑的建议(最方便的参考可能是1979年非参数统计数据建模。 杂志,美国统计协会74:105-121)。这也具有其他优点,即强调如果一半的数据在框内,那么一半的数据也在框外,并且实质上显示了分布的所有细节。在这里只有两组的情况下,任何更常规的箱形图都可以是最小的,甚至是骨架的显示。有些人会将其视为一种美德,但仍有余地可以显示更多细节。相反的论点是,标有特定点的箱形图,特别是那些距离四分位数最近的1.5 IQR的点,对用户是一个明确的警告:当心t检验,因为尾部可能有一些点应该担心。

  2. 您自然可以在箱形图中添加均值的指示,这通常是很容易做到的。通常添加其他标记或点符号。在这里,我们选择参考线。

在此处输入图片说明

抽烟者和非抽烟者的分位数箱图。方框显示中位数和四分位数。蓝色的水平线表示平均值。

注意。该图形是在Stata中创建的。这是那些有兴趣的代码。stripplot必须预先安装ssc inst stripplot

clear 
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers)) 
set obs `n' 
gen smokers = smokers[1, _n] 
gen nonsmokers = nonsmokers[1, _n] 
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge) 

01个+

在此处输入图片说明


1
+1,我一直想使数据抖动,但是我还没有得到它。我还考虑添加更高级的图,包括分位数盒图,小提琴图和qq图,但最终我放弃了列出更多图的想法。
gung-恢复莫妮卡

@gung公平;不幸或幸运的是,线程可以轻松地转变为如何比较两个分布的比较。对于其他数据例如,直方图可以是一个严重的竞争对手,等等
尼克·考克斯

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.