有什么好的例子可以向本科生展示?


9

我将在本学期下半学期向面向CS的本科生教授统计学。大多数参加该课程的学生没有动力去学习该学科,而只是出于主要要求而参加。我想让这个主题有趣且有用,而不仅仅是他们学习让B +通过的课程。

作为一名纯数学博士生,我在实际应用方面一无所知。我想问一些实际应用中的本科统计。我正在寻找的示例(在精神上)例如:

1)显示中心极限定理对于某些大型样本数据很有用。

2)提供一个反例,说明中心极限定理不适用(例如,遵循柯西分布的那些)。

3)使用Z检验,t检验或其他方法,说明假​​设检验在著名的现实生活示例中的工作原理。

4)显示过度拟合或错误的初始假设如何导致错误的结果。

5)展示p值和置信区间如何在(众所周知的)现实生活案例中发挥作用,以及在何处效果不佳。

6)类似地,I型,II型错误,统计功效,拒绝水平等。α

我的麻烦是,尽管我在概率方面确实有很多示例(掷硬币,掷骰子,赌徒的废墟,mar,随机行走,三个囚犯悖论,蒙蒂霍尔问题,算法设计中的概率方法等),但我不知道在统计方面有很多规范的例子。我的意思是严肃的,有趣的例子,具有一定的教学价值,并且不是由人为地编造的,似乎与现实生活格格不入。我不想给学生错误的印象,即Z检验和t检验就是一切。但是由于我纯粹的数学背景,我没有足够的例子让课堂变得有趣和有用。因此,我正在寻求一些帮助。

我学生的水平大约是微积分I和微积分II。他们无法甚至显示标准正态分布的方差为1的定义,因为他们不知道如何评价高斯内核。因此,任何稍微理论化或动手的计算(例如超几何分布,一维随机游走中的反正弦定律)都将无法工作。我想展示一些例子,他们不仅可以理解“如何”,而且可以理解“为什么”。否则,我不确定是否会通过恐吓证明我的话。


2
n=100n=1000n=1010

3
Berry-Esseen定理(我希望您不会在该水平上讲)可以与有限样本一起使用。当然,随着样本数量的增加,特定分布的样本均值的确变得越来越正常,但是我们不能真正说“这是中心极限定理”,因为CLT实际上没有对此发表任何评论。另外,要显示事物逐渐接近正态分布,您需要一系列样本大小。在现实世界中,数据收集仅在一段时间内收集的数据中很常见(因此,如果您假设使用iid,可能会遇到一些困难)。
Glen_b-恢复莫妮卡2015年

2
有一个真实的数据(来自实验-如果有些人为的话)
-40000

1
您可以向他们展示一些有关样本手段在特定情况下如何随着样本数量的增加而表现的方式-这很有用;将其归因于CLT并非严格准确。为此,硬币抛弃数据可能会很有用(数据可能会以类似的方式自行产生)。不过,您可能希望在获取数据之前先阅读链接上的信息,因为数据有一个重要的功能(也是从头开始收集数据的动机)。
Glen_b-恢复莫妮卡2015年

1
出色的介绍文字中提供了您列出的几乎所有内容的示例,例如Freedman,Pisani和Purves。(我联系到第三版,你可以很容易地找到用于在$ 10美金的任何版本会做的罚款;最新版本可能有更多向上的最新例子。)
whuber

Answers:


1

一种不错的方法是安装R(http://www.r-project.org/)并将其示例用于教学。您可以使用命令“?t.test”等访问R中的帮助。每个帮助文件的末尾都是示例。以t.test为例,例如:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

在此处输入图片说明


1

我建议使用中心极限定理来预先确定样本量,并找到诸如“我是否发出了足够的问卷”之类的问题的答案。

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf提供了一个很好的真实示例,说明了如何应用中心极限定理。教学策略可能是:

一)理论

*弄清楚采样分布和估计分布之间的区别,例如通过滚动模具的“平坦”分布与N个骰子的平均值分布(使用R或让学生甚至自己玩Excel绘图)值分布与均值分布)

*显示基于公式的均值分布百分位数的计算(由于您对数学有深入的了解,可能需要导出公式)-这一点对应于上面链接的演示文稿中的幻灯片10-17

然后(如上面演示文稿中的幻灯片20所示):

B)申请

*显示中心极限定理如何帮助确定均值估计中所需精确度的样本量

根据我的经验,此应用程序B)是非统计人员对统计人员的期望-回答“我是否有足够的数据”类型的问题。


1

由于您是在教CS学生,因此中心极限定理的一个很好的应用可能是从大量数据集中(即,> 1亿条记录)估计均值。说明不一定要计算整个数据集的平均值,而要从数据集中采样并使用样本均值来估算整个数据集/数据库的平均值,可能会很有启发性。如果需要,可以进一步执行此步骤,并模拟一个数据集,该数据集的不同子组的值完全不同。然后,您可以让学生探索分层抽样以获得更准确的估计值。

同样,由于有CS学生,因此您可能需要进行一些引导以获取置信区间或估计更复杂的统计数据的方差。我认为这是统计学与计算机的很好的交集,因为它可能会引起对该主题的更大兴趣。


1

我从输入评论开始,但是它变得太冗长了。

σ

因此,我认为,如果您从“学习”的角度提出推论,并且从“决策理论”或“分类”的角度提出测试,他们会喜欢的-简而言之,他们应该喜欢算法。要研究算法!

另外,尝试查找与CS相关的数据集;例如,连接的持续时间和到html服务器的每单位时间的请求数可以帮助说明许多概念。

他们将喜欢学习模拟技术。Lehmer生成器易于实现。向他们展示如何通过反转cdf模拟其他分布。如果您对此感兴趣,请向他们展示Marsaglia的Ziggurat算法。哦,Marsaglia的MWC256生成器是个小宝石。Marsaglia的Diehard检验(统一生成器公平性检验)可以帮助说明概率和统计的许多概念。您甚至可以选择基于“(独立的)随机双精度,偶数流,我的意思是实数”流来介绍概率论,虽然有点厚脸皮,但可能很夸张。

t

如果您掌握了足够的主题,不要犹豫,别出心裁。当您教一些您不完全熟悉的知识时,“古典”讲座是可以的。祝您好运,如果您发布一些讲义,请告诉我!


1

您说这是计算机科学专业的学生。他们的兴趣是什么,这主要是理论计算机科学,还是主要是为工作做好准备的学生?您也可以告诉我们课程说明是什么!

但是,无论您对这些问题的回答是什么,您都可以从一些在信息学背景下发生的实用统计数据开始,例如(网页设计)。该网站不时对此有疑问,例如一段时间内的转化率/stats/96853/comparing-sales-person-conversion-ratesAB测试除转化率外的其他因素

这里有很多这样的问题,似乎来自参与网页设计的人。情况是您有一些网页(例如,您卖了东西)。据我了解,“转化率”是指继续执行某些首选任务(例如购买或您为访客设定的其他目标)的访客所占的百分比。然后,您作为网页设计师,请问您的页面布局是否会影响此行为。因此,您可以对网页的两个(或多个)版本进行编程,随机选择要向新客户展示的版本,从而可以比较转换率,最后选择实现最高转换率的版本。

这是比较实验设计的问题,您需要统计方法来比较百分比,或者可能直接设计的列联表与转换/不转换。该示例可以向他们显示统计信息实际上可能对某些Web开发工作有用!而且,从统计角度来看,它为假设的有效性带来了许多有趣的问题...

为了与您所说的中心极限定理相联系,您可以先询问您需要多少个观测值,然后才能将这些百分比视为正态分布,并让他们使用模拟来研究它们。

您可以在该站点上搜索程序员类型引起的其他统计问题...


-2

我建议在任何好的示例之前,最好先关注明确定义。根据我的经验,本科生概率统计是一门充满单词的课程,所有学生都不懂。作为实验,请问刚完成概率课程的学生“随机变量”是什么。他们可能会为您提供示例,但我怀疑大多数示例都将为您提供清晰的定义。什么是“概率”?什么是“分配”?统计中的术语更加令人困惑。我看到的大多数本科书籍在解释这一点上都做得很糟糕。示例和计算很好,但是没有明确的定义,它没有人们想象的有用。从我的经验来看,这正是我讨厌概率论作为本科生的原因。即使我的兴趣尽可能地远离了可能性,我现在还是很欣赏这个主题,因为我最终自学了所有术语的真正含义。抱歉,这与您的要求不完全相同,但是鉴于您正在教授此类课程,我认为这将是有用的建议。


1
我不确定我是否同意-至少在大多数/所有情况下都不同意。对于某些人来说,概念理解可能会如您所建议的那样先于特定示例,但对于其他学生而言,概念理解(尤其是对于复杂的主题)可能仅通过使用一个特别具有启发性的示例来实现。
jsakaluk

当我还是一名本科生的时候,我通常很难读懂研究生数学并解决那里的问题。我知道自己在做什么和必须做什么。概率论或统计学比我所学的主题“更容易”。但是我不知道自己在做什么,为什么要做。教科书本身对我完全没有帮助。阅读它们之后,我并没有真正理解这些词汇。当然,我可以进行计算,但最终,我只是将其视为空洞的话题。如果我有这种困惑,那么,没有数学倾向的学生也会这样做。
Nicolas Bourbaki

5
我想知道,这对于在纯数学学位上向非常聪明的学生授课是否比在CS专业上教授应用统计学的方法更有用。
银鱼

@Silverfish我不确定我的建议是否仅适用于数学专业的学生。无需深入研究测度理论,就可以开发测度理论的语言并显示概率如何表达。这实际上与基本演算没有什么不同。大多数书籍至少定义了它们的术语,但没有涉及它们的理论。如果学生理解统计学是概率的反问题,并且例如,我们“关心”均值,因为它接近随机变量的期望值,那么他们可能会更欣赏它。
Nicolas Bourbaki 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.