如何在不到10分钟的时间内解释针对青少年的假设检验?


18

一年多来,我一直在提供一个小时的“统计学趣味”课程。每次我有一群不同的孩子过来,我给他们上课。

本课程的主题是,我们进行了一项实验,为10个孩子(喜欢喝可口可乐)提供了两个(未标记)杯子,一个杯子装有可口可乐,一个杯子有百事可乐。要求孩子们根据口味和气味检测出哪杯可乐饮料。

然后,我需要向他们解释如何确定孩子是否在猜测,或者他们(或至少有足够的孩子)是否真的有能力尝尝差异。10个成功中有10个足够好吗?十分之七呢?

即使给这堂课上了数十次(有不同的变化),我仍然不知道我如何以大多数班级都能理解的方式来理解这个概念。

如果您对如何以简单(!)和直观的方式来解释假设检验,无效假设,替代假设,拒绝区域等的概念有任何想法,我想知道如何。


1
有时候在想“为什么”,有助于获得更好的关于“如何”的理解,所以你可以检查stats.stackexchange.com/questions/6966/...
蒂姆

5
(+1)我想这取决于您对10分钟的定义!
2015年

1
几周前,我在stats.stackexchange.com/a/130772上回答了这个问题,或者至少回答了一个非常类似的问题。那不是这个线程的副本吗?
ub

1
@cardinal-我的意思是说10分钟。对于这类主题,以及没有背景的人,这是非常短的时间。---------------亲爱的弟兄们-我很喜欢您的回答,但是对于知道什么是概率以及密度与面积之间的关系的学生来说,这非常有用。这些是为学生而非高中生而讲授的概念。我不想让他们完全理解假设检验,但要保留足够多的假设检验,以便他们在决定每个拒绝区域的含义时能体会到这一点。
塔尔·加利利

4
谢谢您的澄清,塔尔。您似乎仍然表明其他线程与您的问题重复,但是您只是没有在此处看到适当的答案。与您的问题区分开的一种好方法是,对博览会的水平以及我们可以假定的听众所知道的内容提出具体要求,就像您开始在评论中所做的那样。
ub

Answers:


10

我认为您应该首先询问他们,他们认为对一个人说他或她能够分辨可口可乐和百事可乐之间的区别到底意味着什么。这样的人能做别人不能做的事情?

它们中的大多数将没有任何这样的定义,并且如果提出要求将无法产生一个定义。但是,该词组的含义是统计信息给我们的含义,也就是您可以从“统计学趣味”课中获得的内容。

统计学的要点之一是给出以下问题的确切答案:“说某人能够分辨可口可乐和百事可乐的区别是什么意思”

答案是:在盲法测试中,他或她胜过将杯子分类的猜测机。猜测机无法分辨出差异,它只是一直在猜测。该猜测的机器是我们的一个有用的发明,因为我们知道,它并没有具备的能力。猜测机的结果很有用,因为它们显示了我们对缺乏我们测试能力的人的期望。

为了测试一个人是否能够分辨出可口可乐和百事可乐之间的区别,必须在盲法测试中将他或她的杯子分类与猜测机可以进行的分类进行比较。只有当他/他比猜测机更好时,他/他才能够分辨出差异。

那么,您如何确定一个结果是否优于另一个结果?如果它们几乎相同怎么办?

如果两个人对少量杯子进行分类,那么如果结果几乎相同,那么说一个杯子比另一个杯子好就不是很公平。也许今天的获胜者恰好是幸运的,如果明天再次参加比赛,结果会倒转吗?

如果我们要得到一个值得信赖的结果,那么它就不能基于极少数的分类,因为这样机会可以决定结果。记住,您不必具备完美的能力,而必须比猜测机更好。实际上,如果分类的数量太少,即使始终正确识别可口可乐的人也无法证明他/她比猜测机更好。例如,如果只有一个杯子可以分类,那么即使是猜谜机也将有50%的机会对完全正确的杯子进行分类。这不好,因为这意味着在50%的试验中,我们会错误地得出结论,好的可口可乐识别器并不比猜测机好。非常不公平

要分类的杯子越多,猜测机无法显示的机会就越多,好的可口可乐标识符展示的机会就越多。

10杯可能是个不错的起点。一个人然后必须显示多少个正确答案才能证明他或她比机器更好?

问他们他们会怎么猜。

然后让他们使用机器,找出机器的性能,例如,让所有学生产生一系列的十个猜测。在智能手机上使用骰子或随机生成器。要进行教学,您应该准备一系列的十个正确答案,以对这些猜测进行评估。

将所有结果记录在板上。在板上打印排序的结果。解释说,在统计学家承认他或她有能力分辨可口可乐和百事可乐之间的差异之前,人类必须要优于结果的95%。画出一条线,将95%的最差结果与5%的最差结果区分开。

然后,让几个学生尝试对10个杯子进行分类。到现在为止,学生应该知道他们需要证明自己能够分辨出区别的多少权利。

但是,所有这一切在10分钟之内并不是真正可行的。


2
谢谢汉斯。我喜欢您的回答有几个原因。1)因为您将一个新的想法带到了桌上,“让孩子们与猜谜机竞争”。我承认这个想法已经浮出水面,但是您的回答使我更加坚信,这可能比让它们与无效假设的理论分布p = .5竞争更好。2)因为您了解并非所有建议的内容都可以在10分钟内完成:)
Tal Galili

2
谢谢塔尔。a)我认为猜测机比理论分布直观得多。b)我希望您可以多花10分钟以上的时间进行假设检验。
汉斯·埃克布兰德

为什么是95%,哈哈?
马克·L·斯通

2

使用苏打水听起来很有趣,一旦您对假设检验有一定的了解,对青少年是否能够真正分辨苏打水之间的差异进行测试就很有意义。问题可能出在以下问题上:“您能说出苏打水之间的区别吗?” 在青少年的脑海中,还有很多其他问题使之变得复杂,例如“谁在测试苏打水方面好而谁在做弊?”,“苏打水之间实际上有什么区别吗?”

我从未教过青少年统计信息,但我总是幻想使用装填的骰子或偏向硬币。死亡更有趣,但统计学上更具挑战性。以硬币为例,硬币要么是公平的,要么是不公平的。没有擅长掷硬币。没有决定是正面还是反面。

如果我们为赢得$ 100的人掷出硬币,然后正面朝上(您赢了!),我可能会说:“嘿。我怎么知道那枚硬币是否公平?我敢打赌,您操纵了比赛!”。您说:“是吗?证明。” 相当明显的解决方案是一遍又一遍地翻转硬币,以查看硬币正面还是反面。我们翻转它,它浮现在脑海。“啊哈!我说。瞧!它偏向头!” 等等。

优质的偏向币不存在,但偏向骰子确实存在,您可以在亚马逊上购买。如果学生可以赢得一定数量的名次,则可以向他们奖励。但是你知道你会赢。他们会生气的。您说,好吧,如果您可以证明这个死亡是有偏见的,比如说95%的信心,我会给您奖励。

然后继续苏打水。奖品甚至可以是汽水派对!“嘿,我想知道你们能否分辨可乐和百事可乐之间的区别……”


6
没有擅长掷硬币。 ”-我看过Persi Diaconis随意摇头,我想可能是。
Glen_b-恢复莫妮卡2015年

哈。现在我要去尝试去做好它!
tim.farkas 2015年

1
Diaconis是统计学家和魔术师。他在youtube上有一些视频演示了他的想法(当他想时,会翻转头)。
Glen_b-恢复莫妮卡

嗨,蒂姆。您提出了一些要点,但它们并没有直接解决我的问题。假设您的学生正确地通过了10项测试中的x项(一项测试根据口味选择了正确的品牌),那么您如何解释做出该决定的好坏的原因?
塔尔·加利利

同样,您可以使用硬币翻转。如果他们只品尝一种口味并正确处理,就不会令人信服,因为如果您掷硬币,那么50%的时间应该是“正确的”!如果两次正确,则偶然获得该结果的概率与翻转两个头= 0.5 * .5 = .25相同。连续3次是.125,4是.0625,5是.0313。您必须选择所需的置信度。50%够确定吗?25%怎么样?费舍尔(R. Fisher)说95%的把握足够好,而这正是许多科学家所使用的。这在技术上称为符号测试。见下文。
tim.farkas 2015年

2

考虑有人用a弹枪进行目标练习,shot弹枪朝着枪管的方向射击一阵子弹。

零假设:我是一名出色的射手,而我的射门正好对准了目标。不是左,不是右,而是直截了当。我的错误是0。

替代假设:我是个糟糕的射手,而且我的射门没命中。在目标的左侧或右侧。我的错误是e> 0或e <0。

由于任何测量均具有一定的平均误差(即标准误差),因此即使我直拍,也可以进行“偏离目标”的测量。在您可以称我为坏射手并选择替代假说之前,我不需要多次“击中”我的目标(即使每次射击都是连发/散布)。


1
欢迎来到简历。您能否将您的解释与null和替代方法联系起来?也许进行一些其他讨论可能会激发这些动机。也有一些null和替代词可能不适合该解释,您可能需要提及这是哪种假设(例如,点为零,两尾)
Glen_b -Reinstate Monica

1

假设孩子们无法分辨差异,而是偶然地决定。然后,每个孩子都有50%的机会猜对了。因此,您期望(期望值)在这种情况下有5个孩子做对了,有5个孩子犯了错。当然,这是偶然的,也有可能6个孩子犯错了,而4个孩子犯错了,依此类推。相反,即使孩子们能够分辨出差异,也有可能他们中的一个偶然地犯了错误。

直觉上很明显,如果孩子们偶然地猜测,那么所有孩子给出正确答案的可能性就很小。在这种情况下,人们宁愿相信孩子们实际上可以品尝到两种饮料之间的区别。换句话说,我们不希望观察到不太可能发生的事件。因此,如果我们观察到在50-50扫描条件下不可能发生的事件,我们宁可认为这种情况是错误的,孩子们可以区分可乐和百事可乐。

但是“相当不可能”和“相当相信”是什么意思?让你的学生选择α:“如果我们从最末端观察到一个与50-50假设相矛盾的事件,那么它最多有几率使您不再相信该假设?” 希望他们不要回答α0.00098 写他们 α在董事会。我假设α=0.05。因此,您和您的学生都同意:如果我们观察到一个事件属于与50-50场景相矛盾的极端事件的上5%,则我们不再相信这种情况(拒绝假设)。

现在用它们计算二项式分布。 P所有的孩子都猜对了=0.00098P只有一个孩子将百事可乐与百事可乐混淆=0.01074P只有两个孩子混淆=0.05468。显然,如果最多只有一个孩子混淆它们,您只会得出结论,两种饮料之间存在差异。

这是您进行实验的时刻。即使对所有10个学生都进行了彻底检查,即使您只是计算出在第二次错误之后也可以停止。然后记录结果并保存。如果要向他们解释荟萃分析,则需要结果。

(顺便说一句,历史例子是关于先将牛奶或茶倒入杯中进行品尝。品尝茶的女士。)



0

儿童品尝可乐实验是引入假设检验的一个很好的例子,与女士品尝茶实验所显示的等效。但是,评估这些实验不是很直观,因为零假设涉及p = 0.5的二项式分布,而且不是很简单。

在我对假设检验的一般介绍中,我试图通过仅在二项式分布中使用全成功案例来克服此缺点,即使不知道二项式概率的人也可以将其概率计算为p ^ n。

在我最喜欢的示例中,我喜欢烤栗子,并且从街头小贩那里购买了其中的一些。我以折扣价购买它们,因为它们来自一个很大的栗子袋,里面有10%的栗子有虫洞-在这里,我试图弄清楚袋子中混合得很好,所以我的几个栗子都是栗子的随机样本袋子中的“零食”和供应商的声明意味着,每个栗子都有一个10%的概率有虫洞。

当我开始享受我的烤栗子时,我将它们一个接一个地吃,并在吃它们之前检查它们是否有虫洞。

当我检查第一个栗子时,我看到一个蠕虫洞,我想知道供应商是否对我撒谎-我在这里解释说,这是想将我的原假设p = 10%和替代假设p> 10%设置为零,然后我把他们在黑板上。当我从一个栗子中拿出一个栗子时,我是否有理由怀疑p = 10%?好吧,执行相同实验的人中有10%会得到相同的结果,所以我可以认为我的运气不好。

然后,我拿第二个栗子,它也有一个虫洞。如果供应商没有对我说谎,那么十分之二的概率仅为1%。我本来可能很不幸,但是我对供应商感到非常怀疑。

第三个栗子也有虫洞。假设供应商是公平的并且p = 10%,那么用蠕虫中的三个栗子中的三个就不是不可能的了,但这是非常不可能的(概率= 0.1%)。因此,现在我有充分的理由怀疑供应商的工作,并提出投诉并要求退款。

当然,这种连续检验有一些理论上的问题,但是显示假设检验的想法并不重要。实际上,该示例中未涵盖的最重要的想法是,在假设检验中,我们计算得出的结果或其他更差结果的可能性-在我的示例中,这是通过仅获得最差的结果而避免的。

我曾在大学的新生中多次使用过这个例子-从技术上来说,他们仍然是青少年-但我认为它也可以与年轻的青少年一起使用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.