解释两尾测试

我正在寻找各种方式（在基础统计学课程中）向学生解释什么是双尾检验，以及如何计算其P值。

您如何向学生解释两尾测试与单尾测试？

hypothesis-testing p-value teaching

— 塔尔·加利利
source

这是一个很好的问题，我期待每个人都能解释p值以及两尾与单尾测试。我一直在教骨科医生统计数据，因此我尝试使它尽可能基本，因为大多数人10到30年没有做任何高级数学了。

我解释计算p值和尾巴的方式

首先，我要解释的是，如果我们相信我们有一个公平的硬币，我们知道它应该会平均甩掉50％的掷硬币（）。现在，如果您想知道用这种公平的硬币在10次翻转中仅获得2条尾巴的概率，您可以像在条形图中所做的那样计算该概率。从上图可以看到，听到8出10的概率有一个公平的硬币翻转约约。 $=H_0$ $\approx 4.4\%$

由于我们会对硬币的公平性提出质疑，如果我们得到9或10条尾巴，我们就必须包括这些可能性，即测试的尾巴。通过添加值，我们得到的概率现在是一个多一点获得2尾以下。 $\approx 5.5\%$

现在，如果我们只得到2个正面，即8个正面（另一个反面），我们很可能会质疑硬币的公平性。这意味着你最终的概率为的双尾检验。 $5.4...\%+5.4...\% \approx 10.9\%$

由于我们医学界通常对研究失败感兴趣，因此即使我们的目的是做好事并引入有益的治疗方法，我们也需要将可能性的另一面包括在内。

我的抛硬币图

反思不合主题

这个简单的例子还显示了我们如何依赖零假设来计算p值。我还想指出二项式曲线和钟形曲线之间的相似之处。当更改为200次翻转时，您会自然地解释为什么恰好获得100次翻转的可能性开始变得不相关。感兴趣的定义区间是概率密度/质量函数函数及其累积对应物的自然过渡。

在我的课堂上，我向他们推荐可汗学院的统计视频，并且我还使用他对某些概念的解释。他们还可以翻转硬币，以便我们观察硬币翻转的随机性-我试图证明的是，随机性比我们通常认为的受Radiolab情节启发的随机性要大。

代码

我通常有一个图形/幻灯片，即我用来创建图形的R代码：

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

— 马克斯·高登
source

Max的很好回答-感谢您认识到我的问题的

— 重要性

+1个不错的答案，非常详尽。请原谅我，但我将在两件事上谈笑风生。1）p值被理解为在null值下数据与您一样极端或极端的概率，因此您的答案是正确的。但是，当使用离散数据（如硬币翻转）时，这是不适当的保守做法。最好使用所谓的“中p值”，即数据极端概率的1/2等于您的极端概率+数据极端概率的概率。关于这些问题的简单讨论可以在Agresti（2007）2.6.3中找到。（续）

— gung-恢复莫妮卡

2）您声明随机性比我们认为的更加随机。我可以猜到您的意思（我没有机会听您链接的Radiolab剧集，但我会的）。奇怪的是，我一直告诉学生随机性比您想象的要少。我在这里指的是条纹（例如在赌博中）。人们认为随机事件应该比随机事件实际发生的变化更多，因此，他们认为看到了条纹。参见Falk（1997）理解随机性Psych Rev 104,2。同样，您没有错-值得深思。

— gung-恢复莫妮卡

谢谢@gung的输入。我实际上还没有听说过中间价-这很有道理。我不确定在教授基础统计学时是否会提到这一点，因为它可能会使我感到难以尝试的感觉。关于随机性，我们的意思是完全相同的-当看到一个真正的随机数时，我们被认为是有规律的。我想我在Freakonomics播客的预言愚蠢中听说……

— Max Gordon

...多年来，人类大脑已经了解到，没有发现掠食者要比认为它根本没有代价要昂贵。我喜欢这样的类比，并且尝试告诉同事，使用统计信息的主要原因之一是帮助我们解决我们天生的缺陷。

— Max Gordon

假设您要检验男性平均身高为“ 5英尺7英寸”的假设。您选择一个随机样本的男性，测量其身高并计算样本均值。那么您的假设是：

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

在上述情况下，您进行了两尾测试，因为如果样本平均值太低或太高，您将拒绝null。

在这种情况下，p值表示实现样本均值的概率，该均值至少与我们假设空值实际上为真而实际获得的均值一样极端。因此，如果观察到样本平均值为“ 5 ft 8英寸”，则p值将表示我们观察到的高度大于“ 5 ft 8英寸”或小于“ 5 ft 6英寸”的高度（如果为空）的概率是真的。

另一方面，如果您的选择框架如下所示：

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

在上述情况下，您将在右侧进行单尾测试。原因是，仅当样本均值极高时，您才更愿意拒绝null以便选择替代方案。

p值的解释与我们现在谈论的实现样本均值的概率大于实际获得的均值的细微差别保持不变。因此，如果观察到样本均值为“ 5 ft 8英寸”，则p值将表示我们观察到的高度大于“ 5 ft 8英寸”的概率（如果null为真）。

— 变种
source

H_{A}

$H_A$

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$ ，不是

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$ 。请参阅@whuber对这个问题的评论之一，是否为零假设和其他假设？。

— chl

@chl，我同意。但是，对于刚被引入统计学思想的人来说，当将重心放在p值解释的方式和原因上时，为单尾检验重写null可能会分散注意力。

— varty

很公平。即使是出于教学目的，这也值得一提。

— chl