在修完统计学课程,然后试图帮助同学后,我注意到一个启发很多总部敲门鼓的科目正在解释统计学假设检验的结果。看来学生很容易学习如何执行给定测试所需的计算,但是却迷上了解释结果的过程。许多计算机化工具以“ p值”或“ t值”报告测试结果。
您如何向大学生学习统计学第一门课程解释以下几点:
“ p值”相对于要检验的假设是什么意思?在某些情况下应该寻找高p值或低p值吗?
p值和t值之间是什么关系?
在修完统计学课程,然后试图帮助同学后,我注意到一个启发很多总部敲门鼓的科目正在解释统计学假设检验的结果。看来学生很容易学习如何执行给定测试所需的计算,但是却迷上了解释结果的过程。许多计算机化工具以“ p值”或“ t值”报告测试结果。
您如何向大学生学习统计学第一门课程解释以下几点:
“ p值”相对于要检验的假设是什么意思?在某些情况下应该寻找高p值或低p值吗?
p值和t值之间是什么关系?
Answers:
假设您要检验以下假设:大学中男学生的平均身高为英尺英寸。您收集了名随机选择的学生的身高,并计算出样本均值(假设结果是英尺英寸)。使用适当的公式/统计例程,您可以计算假设的值,然后得出结果是。7 100 5 9 p 0.06
为了适当地解释,我们应该牢记以下几点:
经典假设检验的第一步是假设所考虑的假设为真。(在我们的上下文中,我们假设真实的平均高度是英尺英寸。)7
设想进行以下计算:假设我们的假设实际上是正确的,请计算样本均值大于英尺英寸的概率(请参见第1点)。9
换句话说,我们想知道
步骤2中的计算称为值。因此,值为意味着如果我们要重复很多次实验(每次我们随机选择学生并计算样本均值),则个样本中有次可以看到一个样本表示大于或等于英尺英寸。
鉴于以上理解,我们是否仍应保留假设是正确的假设(请参阅步骤1)?好吧,表示发生了以下两种情况之一:
要么
在(A)和(B)之间进行选择的传统方法是为选择任意截止值。我们选择(A)如果和(B),如果。
谦卑地提交,认为到目前为止该线程中没有使用足够的蜡笔。简短的插图简介出现在最后。
学生:p值是什么意思?许多人似乎都同意,这是我们“看到样本均值大于或等于”统计数据的机会,或者是“观察到此结果的概率……假定零假设为真”或“我的样本统计数据是”甚至落在[一种模拟]分布上,甚至“观察到一个检验统计量至少与假定原假设为真而计算出的检验统计量一样大的概率”。
老师:正确理解,所有这些陈述在许多情况下都是正确的。
学生:我看不出它们之间的关系如何。您不是在告诉我们必须陈述原假设和替代假设吗?他们如何参与“大于或等于”或“至少一样大”或非常流行的“更极端”的思想?ħ 甲
老师:由于总体上看似复杂,因此对我们探索一个具体的例子有帮助吗?
学生:好的。但是如果可以的话,请使其成为现实但简单的方法。
老师:这种假设检验理论从历史上就始于天文学家需要分析观测误差,因此从那里开始。一天,我正在浏览一些旧文件,其中一位科学家描述了他为减少仪器中的测量误差所做的努力。他对已知位置的恒星进行了大量测量,并记录了该位置之前或之后的恒星位移。为了可视化这些位移,他绘制了一个直方图,当稍微平滑后,看起来像这样。
学生:我记得直方图是如何工作的:垂直轴标记为“密度”,以提醒我,测量的相对频率由面积而不是高度表示。
老师:是的。“异常”或“极值”值将位于面积很小的区域中。这是蜡笔。您认为您可以在面积仅为总面积的十分之一的区域着色吗?
学生:当然可以;这很容易。[图中的颜色。]
老师:很好!对我来说,这大约占该地区的10%。但是请记住,直方图中唯一重要的区域是垂直线之间的区域:它们表示位移将位于水平轴上这些线之间的机会或概率。 这意味着您需要从头到尾全部着色,这会超过一半的面积,不是吗?
学生:哦,我知道了。让我再试一遍。我要在曲线很低的地方着色,不是吗?它在两端最低。我是否只需要在一个区域上色,还是可以将它分成几个部分?
老师:使用几个部分是一个聪明的主意。他们会在哪里?
学生(指点):在这里和这里。因为这种蜡笔不是很锋利,所以我用一支笔向您展示了我正在使用的线条。
老师:很好!让我告诉你其余的故事。这位科学家对其设备进行了一些改进,然后进行了其他测量。他写道,第一个位移仅为,他认为这是一个好兆头,但作为一名细心的科学家,他开始进行更多的测量以作为检验。不幸的是,那些其他的测量值丢失了–手稿在这一点上中断了–我们只有一个数字。0.1
学生:太可惜了。但是,这难道不比您的图形中位移的广泛传播好吗?
老师:那是我要你回答的问题。首先,我们应该假设什么?
学生:好吧,持怀疑态度的人会怀疑对设备的改进是否有任何效果。举证责任在科学家身上:他想证明怀疑者是错的。这使我认为零假设对科学家来说是一种坏习惯:它说所有新的测量值(包括我们所知道的的值)都应按照第一个直方图的描述行事。甚至比这更糟:它们可能更加分散。
老师:继续,你做得很好。
学生:所以另一种选择是,新的测量结果将减少传播,对吗?
老师:很好!您能给我画一张散布较少的直方图的样子吗?这是第一个直方图的另一个副本;您可以在其上进行参考。
学生(绘图):我正在用笔勾勒出新的直方图,并在其下方区域进行着色。我已经做到了,所以大部分曲线在水平轴上都接近于零,因此它的大部分面积都在(水平)值接近于零:这就是说散布更少或更精确的意思。
老师:这是一个好的开始。但是请记住,显示机会的直方图的总面积应为。因此,第一直方图的总面积为。您的新直方图中有多少面积?1
学生:我认为还不到一半。我看到这是一个问题,但我不知道如何解决。我该怎么办?
老师:诀窍是使新的直方图高于旧的直方图,以使其总面积为。在这里,我将向您展示一个计算机生成的版本进行说明。
学生:我明白了:您将其垂直拉伸,因此其形状并未真正改变,但是现在红色区域和灰色区域(包括红色下面的部分)的数量相同。
老师:对。您正在查看原假设(蓝色,展开)和部分备择假设(红色,展开较少)的图片。
学生:您所说的替代品的“一部分”是什么意思?是不是只是在备择假设?
老师:统计学家和语法似乎并没有混合。:-)认真地说,“假说”的含义通常是大范围的可能性。在这里,另一种选择(正如您之前所说的那样)是,测量结果比以前“分布得更少”。但是少了多少呢?有很多可能性。在这里,让我告诉你另一个。我用黄色虚线画了它。在前两个之间。
学生:我知道:您可以有不同数量的点差,但是您事先不知道点差的实际大小。但是,为什么在这张照片中做一个有趣的阴影呢?
老师:我想强调直方图在哪里以及如何不同。在替代直方图低于空值的灰色阴影中,在替代直方图较高的红色阴影。
学生:那怎么回事?
老师:您还记得您如何在两条尾巴上绘制第一个直方图吗?[浏览文件。]啊,就在这里。让我们以相同的方式为这张图片上色。
学生:我记得:这些都是极端的价值观。我找到了零密度尽可能小的地方,并在其中占10%的区域着色。
老师:告诉我那些极端地区的替代方案。
学生:很难看到,因为蜡笔把它遮盖了,但是看起来几乎没有机会在我涂过颜色的区域出现任何替代品。它们的直方图正好位于值轴的下方,下方没有任何空间。
老师:让我们继续这个想法。如果我假设告诉您某个测量的位移为,并要求您选择这三个直方图中最有可能来自哪个直方图,它将是哪个?
学生:第一个-蓝色。它是分布最广的地方,也是唯一出现似乎有发生的机会的地方。
老师:手稿中的值如何?
学生:嗯...那是另外一个故事。所有三个直方图都高出地面。
老师:好的,很公平。但是,假设我告诉您,该值大约,例如介于和之间。这是否有助于您从这些图表中读取一些概率?0 0.2
学生:当然可以,因为我可以使用区域。我只需要估计至之间的每条曲线下方的面积即可。但这看起来很难。0.2
老师:你不需要走那么远。您能说出哪个面积最大吗?
学生:当然,最高的曲线下方的那个。这三个区域都具有相同的底面,因此曲线越高,其下方和底面的面积就越大。这意味着最高的直方图(我用红色虚线画出的直方图)是最可能的直方图,位移为。我想我知道您的处理方法了,但我有点担心:我不必查看所有替代项的所有直方图,而不仅仅是此处显示的一两个吗?我怎么可能那样做?
老师:您善于挑选图案,所以告诉我:随着测量仪器变得越来越精确,其直方图会怎样?
学生:它会变窄-哦,它也必须变高,所以总面积保持不变。这使得比较直方图非常困难。替代者是所有以低于零右低,这是显而易见的。但是在其他值时,替代方案有时更高,有时则更低!例如,[指向接近的值],在这里我的红色直方图最低,黄色直方图最高,而原始的空直方图在它们之间。但是在右边,空值是最高的。3 / 4
老师:通常,比较直方图是一项复杂的工作。为了帮助我们做到这一点,我已经要求电脑再拍情节:它分为每个替代柱状图高度(或“密度”)由空直方图的高度,创造了被称为价值“似然比”。结果,大于的值表示更可能选择,而小于的值则表示更不可能选择。它吸引了另一种选择:它比其他两种散布得更多,但散布得还不到原始设备。1
老师(续):您能告诉我替代方法比零替代方法更有可能出现的地方吗?
学生(着色):显然在中间。而且由于这些不再是直方图,我想我们应该关注的是高度而不是面积,所以我只是在水平轴上标记一系列值。但是我怎么知道中间有多少颜色呢?我在哪里停止着色?
老师:没有严格的规定。这完全取决于我们计划如何使用我们的结论以及怀疑者的强烈程度。但坐下来,想想你已经完成了什么:你现在认识到,大似然比的结果是证据的替代和成果有小似然比证据反对的替代品。我要你做的是在一个尽可能大的范围内,对在原假设下发生的可能性很小,而在替代情况下发生的可能性较大的地方进行着色。回到您上色的第一个图,回到我们的对话开始时,您在空值的两个尾部上色,因为它们是“极端的”。他们还会做得好吗?
学生:我不这样认为。即使在原假设下它们是非常极端且罕见的,但对于任何其他选择而言,它们实际上都是不可能的。如果我的新度量为,我想我会持怀疑态度,并否认已经发生了任何改善,即使在任何情况下都是不寻常的结果。我想更改颜色。在这里-让我再来一支蜡笔。3.0
老师:那代表什么?
学生:我们从您开始时就要求我只在原始直方图下绘制10%的区域-一个描述空值的区域。因此,现在我吸引了似乎更有可能出现替代方案的区域的10%。我认为,当在该领域进行新的衡量时,它告诉我们我们应该相信替代方法。
老师:怀疑论者应该如何应对?
学生:怀疑论者永远不必承认自己错了,是吗?但是我认为他的信仰应该有所动摇。毕竟,我们对它进行了排列,以便尽管一个度量可以在我刚刚绘制的区域内,但是当null为真时,它只有10%的机会在那里。当替代方案成立时,它更有可能出现在那儿。我不能告诉你怎么这样的机会大得多的是,因为这将取决于科学家多少提高了设备。我只知道更大。因此,证据将是持怀疑态度的。
老师:好的。您介意总结一下您的理解以便我们对您所学到的东西完全清楚吗?
学生:我了解到,要将其他假设与原假设进行比较,我们应该比较它们的直方图。我们将替代方案的密度除以零值的密度:这就是您所说的“似然比”。为了进行良好的测试,我应该选择一个小数目,例如10%或足以动摇怀疑论者的东西。然后,我应该找到似然比尽可能高的值,并对其进行着色,直到着色10%(或其他值)为止。
老师:那你会怎么用呢?
学生:正如您之前提醒我的那样,颜色必须介于垂直线之间。位于颜色下方的值(在水平轴上)是反对原假设的证据。其他值-好吧,如果不仔细研究所有涉及的直方图,很难说出它们的含义。
老师:回到手稿的值,您将得出什么结论?
学生:那是我上次上色的区域,所以我认为科学家可能是正确的,并且仪器确实得到了改进。
老师:最后一件事。您的结论基于选择10%作为测试标准或“大小”。许多人喜欢使用5%来代替。有些人更喜欢1%。你能告诉他们什么?
学生:我无法一次完成所有这些测试!好吧,也许我可以做到。我可以看到,不管测试的大小是多少,我都应该从开始着色,在这种情况下,着色是“最极端”的值,并从该位置向两个方向向外进行着色。如果我刚好停在实际观察到的值)的位置,我想我应该在到之间(例如的区域上色。5%和1%的人可以立即告诉我我上色过多:如果他们只想上色5%或1%,就可以,但不会达到0.1 0.05 0.1 0.08 0.1。他们不会得出与我相同的结论:他们会说没有足够的证据表明确实发生了变化。
老师:你刚才告诉我一开始所有的报价实在的意思。从该示例显而易见的是,从具有更大的值或者甚至具有零密度小的值的意义上,它们不可能意图是“更极端”或“大于或等于”或“至少一样大” 。在您所描述的大似然比的意义上,它们实际上是指这些东西。顺便说一下,您所计算的大约的数字称为“ p值”。只能以您描述的方式正确地理解它:关于相对直方图高度的分析-似然比。
学生:谢谢。我不确定我是否完全理解所有这些内容,但是您给了我很多思考的机会。
老师:如果您想走得更远,请看看Neyman-Pearson Lemma。您现在可能已经准备好了解它。
许多基于单个统计信息的测试(如对话框中的统计信息)将其称为“ ”或“ ”。这些是提示空直方图是什么样的方法,但它们仅是提示:我们给这个数字取什么名称并不重要。学生汇总的构造(如此处所示)显示了它与p值的关系。p值是最小的检验大小,将导致对的观察导致对原假设的拒绝。t t = 0.1
在放大显示细节的该图中,原假设以纯蓝色绘制,两个典型的替代方案以虚线绘制。这些替代物往往比零值大得多的区域将被阴影化。阴影从替代物的相对可能性最大的地方开始(为)。当达到观察值时,阴影停止。p值是零直方图下阴影区域的面积:假设零为真,这是观察结果可能性的可能性,而无论哪种选择碰巧为真,其似然比都往往很大。尤其是,这种构造与替代假设密切相关。如果不指定可能的替代方法,则无法执行此操作。吨= 0.1
在谈到这个话题之前,我总是确保学生乐于在百分比,小数,赔率和分数之间移动。如果他们对此不完全满意,那么他们很快就会感到困惑。
我想通过Fisher的经典茶实验来首次解释假设检验(以及p值和检验统计数据)。我有以下几个原因:
(i)我认为通过进行实验并定义术语,比定义所有这些术语开头更有意义。(ii)您不必明确地依赖概率分布,曲线下的面积等来克服假设检验的关键点。(iii)它以一种相当明智的方式解释了“荒谬至极”的荒谬观念(iv)我发现学生们喜欢了解他们所学内容的历史,起源和背景故事,因为它使它变得更加真实而不是一些抽象理论。(v)不论学生来自哪个学科或学科,都可以以茶为例(注:某些国际学生对这种特殊的英国奶茶机构感到困难。)
[注:我最初是从丹尼斯·林德利(Dennis Lindley)的精彩文章“实验数据分析:茶和酒的欣赏”中得到这个想法的,在这篇文章中他证明了贝叶斯方法为何优于经典方法。
背景故事是穆里尔·布里斯托尔(Muriel Bristol)在1920年代的一个下午在Rothamsted实验站拜访Fisher喝杯茶。当费舍尔将牛奶倒入最后时,她抱怨说,她还可以判断是先倒牛奶还是倒牛奶,并且她更喜欢倒牛奶。为了对此进行测试,他设计了他的经典茶实验,在其中向穆里尔(Muriel)展示了一对茶杯,她必须确定哪个杯子先加了牛奶。用六对茶杯重复此过程。她的选择是对(R)或对(W),其结果是:RRRRRW。
假设Muriel实际上只是猜测,没有能力进行任何区分。这称为零假设。费舍尔(Fisher)认为,实验的目的是抹杀这个零假设。如果穆里尔(Muriel)猜到了,她将在每回合以0.5的概率正确地识别出茶杯,并且由于它们是独立的,观察到的结果为0.5 = 0.016(或1/64)。费舍尔然后辩称:
(a)原假设(Muriel在猜测)是正确的,并且发生了几率很小的事件,或者
(b)零假设是错误的,穆里尔具有歧视权。
p值(或概率值)是在原假设为真的情况下观察到此结果(RRRRRW)的概率-这是上面(a)中提到的小概率。在这种情况下为0.016。由于概率很小的事件(根据定义)很少发生(根据定义),情况(b)可能比情况(a)更能说明发生的情况。当我们拒绝原假设时,我们实际上是在接受相反的假设,这就是所谓的替代假设。在此示例中,Muriel具有歧视性权力是替代假设。
一个重要的考虑因素是我们将什么分类为“小”概率?我们愿意说事件不太可能发生的临界点是什么?标准基准为5%(0.05),这称为显着性水平。当p值小于显着性水平时,我们拒绝原假设为假,并接受我们的替代假设。通常的说法是,当p值小于显着性水平时,即当在假设为零的假设为真的情况下我们观察到的发生概率小于我们的临界点时,声称结果为“显着”。重要的是要清楚,使用5%是完全主观的(与使用其他常见的显着性水平1%和10%一样)。
费舍尔意识到这是行不通的。一对错误的每一个可能的结果都同样暗示着歧视性权力。因此,上述情况(a)的相关概率为6(0.5)^ 6 = 0.094(或6/64),这在5%的显着性水平下不显着。为了克服这一点,费舍尔认为,如果将6中的1个错误视为歧视能力的证据,那么就没有错误,即在计算p值时应包括比观察到的能力更能表明歧视能力的结果。这导致对推理的以下修改:
(a)零假设(Muriel在猜测)是正确的,并且发生或大于观察到的极端事件的概率很小,或
(b)零假设是错误的,穆里尔具有歧视权。
回到我们的茶实验中,我们发现在这种设置下的p值为7(0.5)^ 6 = 0.109,在5%阈值时仍然不显着。
然后,我让学生们尝试其他一些示例,例如抛硬币,以确定硬币是否公平。这为零/替代假设,p值和显着性水平的概念进行了归纳。然后,我们继续介绍连续变量的情况,并介绍检验统计量的概念。正如我们已经深入介绍了正态分布,标准正态分布和z变换一样,这只是将几个概念结合在一起的问题。
除了计算测试统计量,p值和做出决定(显着/不重要)之外,我还让学生们阅读已发表的论文,以填补缺失的空白游戏。
口头上的解释或计算并没有真正帮助我从直觉上理解什么是p值,但是一旦我学习了涉及模拟的课程,它就真正成为我关注的焦点。这使我能够实际看到由原假设产生的数据并绘制均值/等值。样本,然后查看样本统计量在该分布上的位置。
我认为这样做的主要优势在于,它可以让学生在一分钟内忘记数学和测试统计信息的分布,而专注于手头的概念。当然,它要求我学习如何模拟这些东西,这会给完全不同的学生带来问题。但这对我有用,而且我无数次地使用模拟来帮助其他人成功地解释统计信息(例如,“这就是您的数据的样子;这就是泊松分布的样子。您确定要吗?进行泊松回归?”)。
这不能完全回答您提出的问题,但至少对我而言,这使它们变得微不足道。
p值的一个很好的定义是“观察检验统计数据的概率至少与假设零假设为真时计算出的检验统计数据一样大”。
这样做的问题在于,它需要了解“检验统计量”和“零假设”。但是,这很容易理解。如果零假设是正确的,通常是类似“来自总体A的参数等于来自总体B的参数”之类的信息,并且您计算统计信息以估算这些参数,那么看到检验统计信息说“这就是这样的概率”是多少?不同”?
例如,如果硬币是公平的,我在100次抛掷中看到60个头的概率是多少?这正在检验零假设,“硬币是公平的”或“ p = .5”,其中p是正面概率。
在这种情况下,测试统计信息将为正面数。
现在,我假设您所说的“ t值”是通用的“检验统计量”,而不是“ t分布”中的值。它们不是一回事,术语“ t值”没有(必须)被广泛使用并且可能会造成混淆。
您所说的“ t值”可能就是我所说的“测试统计”。为了计算p值(请记住,这只是一个概率),您需要一个分布,以及一个插入该分布的值,该值将返回概率。完成此操作后,返回的概率就是您的p值。您可以看到它们是相关的,因为在相同的分布下,不同的检验统计量将返回不同的p值。更为极端的检验统计量将返回较低的p值,从而更大程度地表明原假设为假。
在这里,我忽略了单面和双面p值的问题。
想象一下,您有一个装有900个黑色大理石和100个白色大理石的袋子,即10%的大理石是白色的。现在想象一下,您拿出1块大理石,看一下并记录其颜色,取出另一块,记录其颜色等。然后执行100次。在此过程结束时,您将拥有一个白色大理石的数字,理想情况下,我们希望是10,即100的10%,但实际上可能是8,或13,或者仅仅是由于随机性而已。如果您多次重复执行此100次大理石退出实验,然后绘制每个实验绘制的白色大理石数量的直方图,您会发现您的钟形曲线的中心大约为10。
这代表了您的10%假设:任何装有1000颗大理石的袋子(其中10%是白色的),如果您随机取出100颗大理石,您会在选择中找到10颗白色大理石,取4颗左右。p值全部与这个“给定或取4左右”有关。假设通过参考之前创建的钟形曲线,您可以确定少于5%的时间将获得5个或更少的白色大理石,而另外<5%的时间将获得15个或更多的白色大理石,即> 90%的白色大理石。则您选择的100种大理石将包含6到14个之间的白色大理石。
现在假设有人掷下一袋装有不明数量的白色大理石的1000块大理石,我们有工具来回答这些问题
i)白色大理石少于100个吗?
ii)是否有100多个白色大理石?
iii)袋子中是否装有100个白色大理石?
只需从袋子中取出100个弹珠,然后算出该样品中有多少是白色的。
a)如果样品中有6至14种白色,您不能拒绝以下假设:袋子中有100种白色大理石,并且6至14的相应p值将> 0.05。
b)如果样品中有5种或更少的白色,您可以拒绝以下假设:袋子中有100种白色大理石,并且5个或更少的相应p值<0.05。您可能希望袋子中包含<10%的白色大理石。
c)如果样品中有15种以上的白色,您可以拒绝以下假设:袋子中有100种白色大理石,并且15种或以上的相应p值<0.05。您可能希望袋子中包含> 10%的白色大理石。
回应Baltimark的评论
鉴于以上示例,大约有:
吸气剂5个白球以下的机会为4.8%
45%或更少的1.85%机会
3件或更少的0.55%几率
2%或更少的0.1%几率
6.25%机会达到15以上
16%或更高的3.25%机会
1.5%几率达到17以上
0.65%机会达到18以上
19%或更高的0.25%机会
0.1%机会20或更多
21%或更高的0.05%机会
这些数字是根据在R中运行的简单Monte Carlo例程生成的经验分布以及采样分布的最终分位数估算的。
为了回答原始问题,假设您画了5个白球,那么如果1000个大理石袋确实确实包含10%的白球,则只有大约4.8%的机会,在100个样本中您只能抽出5个白球。等于ap值<0.05。您现在必须在
i)袋子里确实有10%的白球,我只是“倒霉”才画了这么少
要么
ii)我画了很少的白球,以至于实际上不可能有10%的白球(拒绝10%的白球的假设)
p值不能告诉您的是,原假设是真实的。在传统的(Fisher)重要性检验框架下,我们首先计算假设零假设为真(即p值)的观测数据的可能性。如果在原假设下数据不太可能被观察到,那么假设原假设可能是错误的,从直觉上看似乎是合理的。这是完全合理的。如果(1-p)> 0.95,统计学家会传统地使用阈值并“在95%显着性水平上拒绝原假设”;但是,这只是一个在实践中被证明是合理的惯例-并不意味着原假设为假的可能性小于5%(因此替代假设为真的可能性为95%)。
成像将f值映射到替代假设为真的概率的函数f()。断言该函数严格递减是合理的(这样,原假设下的观察值越可能,替代假设成立的可能性越小),并且其给出的值在0到1之间(因为它给出了估计值)的可能性)。然而,这就是我们对f()所了解的全部内容,因此尽管p与替代假设成立的概率之间存在关系,但未经校准。这意味着我们不能使用p值对无效假设和替代假设的合理性进行定量说明。
警告:在假设论中,因为它不是一个随机变量,所以不是真的在频率论框架内。因为它不是一个随机变量,它要么是真的,要么不是。因此,在谈到假设真实性的可能性时,我隐含地转向贝叶斯解释。将贝叶斯和常客混为一谈是不正确的,但是这样做总是有诱惑力的,因为我们真正想要的是定量假设相对假设的相对可能性。但这不是p值提供的。
在统计学中,您永远不能说某事是绝对确定的,因此统计学家使用另一种方法来衡量假设是否成立。他们试图拒绝数据不支持的所有其他假设。
为此,统计检验具有无效假设和替代假设。统计检验报告的p值是假设无效假设正确的结果的可能性。这就是为什么我们想要小的p值。它们越小,如果原假设正确,结果的可能性就越小。如果p值足够小(即,如果原假设是正确的,那么结果就不太可能出现),则原假设被拒绝。
以这种方式,可以提出零假设并随后予以拒绝。如果否定假设被拒绝,则您接受替代假设作为最佳解释。只要记住,虽然备用假设永远不确定,因为原假设可能是偶然产生的结果。
我不太愿意恢复旧主题,但是我从这里跳了下来,因此我将其发布为对链接中问题的答复。
p值是一个具体术语,不应有误解的余地。但是,p值定义的口语翻译会导致许多不同的误解,这在某种程度上是神秘的。我认为问题的根源在于使用了短语“至少与原假设相反”或“至少与样本数据中的极端一样”。
例如,维基百科说
... p值是在原假设为真时获得观察到的样本结果(或更极端的结果)的概率。
当人们第一次偶然发现“(或一个更极端的结果)”并开始思考“ 更多的偏爱?” 时,值的含义就变得模糊了。
我认为最好将“更极端的结果”留给间接言语行为之类的东西。所以,我的看法是
p值是在原假设为真的“虚构世界”中看到您所看到的可能性。
为了使这个想法具体化,假设您有x
10个观测值组成的样本,并假设总体平均值为。因此,在您假设的世界中,人口分布为。
x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633
您将t-stat计算为,然后发现
sqrt(10) * (mean(x) - 20) / sd(x)
#-2.974405
因此,观察到的概率是多少?在想象的世界中最大为2.97(“更多极端”出现在这里)?因此,在虚拟世界,p值必须为
2*(1 - pt(2.974405, 9))
#[1] 0.01559054
由于p值很小,因此不可能x
在假设的世界中抽取样本。因此,我们得出结论,假设的世界实际上不是现实世界。
我发现按照以下顺序对概念进行解释很有帮助:(1)z得分以及假设法线曲线时z得分之上和之下的比例。(2)抽样分布的概念,以及已知总体标准偏差时给定样本的z得分的平均值(因此,一个样本z检验)(3)一个样本t检验和a的可能性当人口标准差未知时(样本中有关某个工业统计学家的秘密身份以及为何吉尼斯适合统计学)的样本均值。(4)两次抽样t检验与均值差的抽样分布。介绍性学生掌握t检验的难易程度与准备该主题的基础有关。
/ *吓坏了的学生的教练模式关闭* /
我还发现模拟在教学中很有用。
这是一个可以说是最基本情况的模拟,其中我们从采样了次(因此,为简单起见,已知),然后向左测试双面替代。
然后,统计量在下为,因此值就是或R中。pnorm(tstat)
在模拟中,这是在空(此处为)下生成的数据产生的存储在其中的样本均值更少(即``更极端''的次数的分数左侧测试),而不是根据观察到的数据计算出的结果。nullMeans
# p value
set.seed(1)
reps <- 1000
n <- 100
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)
X <- rnorm(n,mu)
nullMeans <- counter <- rep(NA,reps)
yvals <- jitter(rep(0,reps),2)
for (i in 1:reps)
{
tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions
par(mfrow=c(1,3))
plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")
X_null <- rnorm(n,mu_0) # generate data under H_0
nullMeans[i] <- mean(X_null)
plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
abline(v=mu_0,lty=2)
points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")
# counts 1 if sample generated under H_0 is more extreme:
counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")
if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)
“ p值”相对于要检验的假设是什么意思?
从本体论的意义上(什么是真理?),它什么都没有。任何假设检验均基于未经检验的假设。这通常是测试本身的一部分,但也属于您使用的任何模型的一部分(例如,在回归模型中)。因为我们只是假设这些,所以我们不知道p值低于我们的阈值的原因是否是因为null为假。这是一个不合逻辑的推论演绎无条件因为低p值,我们必须拒绝空。例如,模型中的某些内容可能是错误的。
从认识论的角度(我们能学到什么?),它意味着某种东西。您将在未经测试的前提为真的情况下获得知识。由于(至少到目前为止)我们无法证明现实的每一个组成部分,因此我们所有的知识必定是有条件的。我们将永远不会到达“真相”。
我认为涉及大理石,硬币或高度测量的示例可以很好地练习数学,但不利于建立直觉。大学生喜欢质疑社会,对吗?如何使用政治榜样?
假设一位政治候选人参加了竞选活动,承诺某些政策将有助于经济。她当选后,制定了政策,两年后,经济蓬勃发展。她准备连任,并声称她的政策是每个人繁荣的原因。你应该重选她吗?
体贴入微的公民应该说:“很好,经济确实不错,但是我们真的可以将其归因于您的政策吗?” 要真正回答这个问题,我们必须考虑以下问题:“如果没有过去的两年,经济是否会表现良好?” 如果答案是肯定的(例如,由于某些不相关的新技术发展,经济正在蓬勃发展),那么我们将拒绝政治家对数据的解释。
也就是说,要检验一个假设(政策对经济有帮助),我们必须建立一个假设无效的世界模型(该政策从未颁布)。然后,我们在该模型下进行预测。我们将在另一个世界中观察此数据的概率称为p值。如果p值太高,那么我们就不会对这一假设感到信服-政策没有任何区别。如果p值较低,则我们相信该假设-该政策至关重要。
我还没有证明下面的论点,因此它可能包含错误,但是我真的想投入我的两分钱(希望我很快会用严格的证明来更新它)。查看值的另一种方法是
-值 -甲统计使得 ,其中是分布函数下。
具体来说,如果具有连续分布并且您没有使用近似值,则
您可能会认为这是的广义描述。
正如大多数分析师指出的那样,p值并不神秘。这是一种不必计算t检验的置信区间,而只是确定可否定零假设的置信度的方法。
插图。您进行测试。Q值的p值为0.1866,R变量的p值为0.0023。(以%表示)。
如果您以95%的置信度进行测试以拒绝原假设。
对于Q:100-18.66 = 81.34%
对于R:100-0.23 = 99.77%。
在置信度为95%的情况下,Q给出81.34%的置信度来拒绝。低于95%,这是不可接受的。接受为空。
R给出99.77%的置信度以拒绝null。明显高于所需的95%。因此,我们拒绝空值。
我只是说明了通过“反向方式”测量p值直至达到我们拒绝零次假设的置信度的读数。
假设检验中的****** p值衡量检验的敏感性。p值越低,敏感性越高。如果将显着性水平设置为0.05,则p值为0.0001表示测试结果正确的可能性很高******