为什么要继续教导和使用假设检验(在置信区间可用时)?


56

为什么要继续教和使用假设检验(包括所有困难的概念,并且是统计上最严重的错误),以解决存在区间估计器(置信度,自举率,可信度或其他)的问题?给学生最好的解释是什么?只有传统?意见将非常受欢迎。



4
这些引号非常合适。所有模型都是错误的,但有些模型很有用。
mpiktas 2011年

Answers:


60

这是我的个人观点,因此我不确定它是否可以正确回答。

我们为什么要教假设检验?

简而言之,一个很大的原因是,很可能在您读这句话的时间里,在您坐着的10英尺半径范围内进行了数百个(如果不是数千个(或数百万))假设检验。

您的手机肯定是使用似然比测试来确定它是否在基站范围内。您的笔记本电脑的WiFi硬件在与路由器通信时也是如此。

您用来自动加热两天大的比萨饼的微波使用了假设检验来确定比萨饼何时足够热。

当您在结冰的道路上加油过多时,您的汽车的牵引力控制系统会启动,或者轮胎压力警告系统会告知您后排乘客侧轮胎异常低,并且大灯会在5点左右自动点亮:傍晚19时许。

您的iPad正在基于(嘈杂的)加速度计读数以横向格式呈现此页面。

当您在购买午餐,汽油和电影的几个小时内,“您”在德克萨斯州的百思买购买了平面电视,并在华盛顿州的一家购物中心的Zales购买了价值2000美元的钻戒时,您的信用卡公司就关闭了您的信用卡。在匹兹堡郊区您家附近。

被送到使这个网页在浏览器中的数十万位的每个单独进行了假设检验,以确定他们是否是最有可能是0或1(除了一些惊人的纠错)。

稍微看一下那些“相关”主题。

所有这些事情都是由于假设检验而“发生”的。对于这些事情中的许多事情,可以计算某些参数的间隔估计。但是,特别是对于自动化工业流程而言,使用和理解假设检验至关重要。


在更理论的统计水平上,统计能力的重要概念很自然地来自决策理论/假设检验框架。另外,我相信即使是纯粹的数学家也能欣赏内曼·皮尔森引理及其证明的美与简。

这并不是说对假设检验的教导或理解很好。总的来说,不是。而且,尽管我同意,尤其是在医学领域,报告间隔估计以及效果大小和实际意义与统计学意义的观念几乎普遍优于任何形式的假设检验,但这并不意味着假设检验及相关假设概念本身并不重要也不有趣。


2
感谢您提供有趣的示例清单。给出问题的目的:为了促进对我们的统计学课程的审查的辩论,我们将尝试获得有关在现代设备中进行测试的更多详细信息,这可能是我们工程专业学生的一大动力。
华盛顿·席尔瓦,

3
您的大多数示例实际上并不需要经典的假设(暗示固定的置信水平),而是决策过程。
kjetil b halvorsen 2014年

1
亲爱的@kjetil:坦白地说,在这里投票不太好。确实,这个问题并没有询问关于经典假设检验的任何具体信息,我的回答也没有做出这种假设!(假设检验在这里得到了广泛的解释,并且有充分的理由。)
红衣主教

1
我需要买一个能自动重加热的微波炉。
jmbejara 2014年

2
这是一个非常有说服力的答案,但是如果您对为什么所有这些东西都是“假设检验”进行了更多解释,我将不胜感激。我知道您所有的示例都是关于自动二进制决策的。我想在大多数情况下,会测量一些值,然后将其与临界值进行比较,以判断该值是高于还是低于该值(因此可以做出决定)。这是否已经成为您的“假设检验”,还是您有其他意思?我猜想当OP问到为什么仍在教授假设检验时,他们没有提到简单的阈值化。
变形虫说莫妮卡(Monica)恢复

29

我教假设检验有多种原因。一个是历史的,他们必须了解他们阅读并理解假设检验观点的大量先前研究。第二个是,即使在近代,在进行其他类型的统计分析时,某些研究人员仍经常使用它,通常是隐式使用。

但是,当我教它时,我是在模型构建的框架中教这些假设和估计是构建模型的一部分。这样,切换到比较更复杂和理论上有趣的模型相对容易。研究更多地是使理论相互抵触,而不是理论对虚无。

假设检验的罪过并不是数学中固有的,并且不能正确使用这些计算。它们的主要谎言在于过度依赖和误解。如果绝大多数幼稚的研究人员仅使用区间估计而没有认识到与这些事物的任何关系,我们称之为假设,我们可能会称其为犯罪。


+1,谢谢。好辩。但是在入门课程中,严格意义上讲没有模型选择。您可以引用其他适合进行假设检验的环境吗?报告测试结果而无需估计功率是否可以接受?
华盛顿·席尔瓦,

2
入门课程中没有选择模型的必要。如果您正在考虑更改课程,则应将其视为一个不错的起点。
约翰

20

PPPP


2
在某些领域中,“唯一的地方...”和“包含方差分析...”并不意味着您已经涵盖了大量的统计工具箱。
Fomite 2012年

4
我认为这个职位有很多话要说。鉴于许多研究人员大多想了解其数据中的模式,我经常想知道我们是否可以合理地保留大量统计数据,而仅使用数据图。(当然,这是假设将熟练地,有洞察力地完成情节,并且假设我们可以对它们进行假设检验也不会那么糟糕。)
gung-恢复莫妮卡

1
有点奇怪的是,我不同意“缺乏证据不是缺乏证据”这一说法。缺乏影响的证据并不能证明不存在任何影响,但无疑构成了反对存在该影响的证据。问题更多地是关于有多少证据可以证明不重要的结果所产生的影响。我认为大p值的问题在于,在正态分布情况下,大p值假设的证据,因为它们是拟合优度的单调函数。而且由于正态分布是如此普遍,所以人们看到了这一点并进行了推断
概率

5
P

11

我认为这取决于假设检验你所谈论的。据说“经典”假设检验(Neyman-Pearson)是有缺陷的,因为它没有适当地限制进行检验时实际发生的情况。相反,它的设计目的是“不管”从长远来看实际如何。但是,如果不满足条件,则可能导致在个别情况下产生误导性结果。从长远来看,这仅仅是因为该程序“不在乎”个别情况。

假设检验可以在决策理论框架中进行,我认为这是理解它的更好方法。您可以将问题重述为两个决定:

  1. H0
  2. HA

决策框架更容易理解,因为它清楚地区分了“您将做什么”的概念。和“真相是什么?” (通过您的先前信息)。

您甚至可以将“决策理论”(DT)应用于您的问题。但是,为了停止假设检验,DT说您必须有一个可供选择的决策。所以问题是:如果假设检验被放弃,它将取代什么?我想不出这个问题的答案。我只能想到进行假设检验的替代方法。

(注意:在假设检验的背景下,数据,样本分布,先验分布和损失函数都是先验信息,因为它们是做出决定之前获得的。)


我的目标是收集专家意见,以丰富我在巴西工作的研究所正在进行的有关统计学课程修订的辩论。该目标正在实现,其意见也来自@ cardinal,@ Andrew Robinson,@ probabilityislogic和@JMS。显然,应该很好地讲授假设检验(通过NP,DT或Byes),但是鉴于统计学教学的普遍性,适当地开设课程所面临的挑战比该技术本身更为复杂。感谢您的贡献。
华盛顿·席尔瓦,

1
我喜欢决策理论,如果它是使用结合了合理的损失/效用函数的贝叶斯方法严格完成的话。如果此类功能不可用,我倾向于间隔估计。
Frank Harrell'2

@FrankHarrell-我同意,但是我仍然将间隔估计归类为一种“决策理论”,其中效用函数通常基于信息内容(即,使用我们拥有的更多信息的结论会更好)-并且这是经过优化的取决于后验分布本身,如果可能对预测感兴趣,则可能是后验预测。间隔估计为后验提供了便利。当手头数据外部的信息稀缺时,良好的置信区间(例如,基于MLE)可以很好地近似这一点
概率

通常,当您没有任何具体决定时就使用区间估计(这可能是您没有合理损失函数的主要原因),因此需要适应许多不同的情况。
概率

9

如果我是顽固的频率论者,我会提醒您,置信区间通常是倒置的假设检验,即95%区间仅仅是描述所有涉及您的数据的检验不会在.05拒绝的点的另一种方式水平。在这些情况下,相对于另一个的偏爱是论述的问题而不是方法的问题。

现在,阐述当然很重要,但是我认为那将是一个很好的论据。从不同的角度将这两种方法解释为相同推理的重述是很简洁的。(从教学法上讲,并非所有区间估计量都为倒数检验这一事实是一个微不足道但并非特别尴尬的事实)。

如上所述,更严重的影响来自对观察的决定和条件。但是,即使在撤退中,常客也总是会观察到,在很多情况下(也许不是多数),以观察为条件是不明智的或无法说明的。对于那些人来说,HT / CI设置正是(不是“是”)所需要的,因此应该这样讲。


从形式上讲,任何将I型错误率与alpha绑定的假设检验都可以转换为覆盖率参数为(1-alpha)的置信区间,反之亦然。我认为您不必成为顽固的常客,不必相信这是定义所带来的。:-)
Keith Winstein

3
@Keith对定义没有争论,但是您必须是一位常客,才能认为它们不仅仅是有趣的,也许是方便的数学知识。也就是说,如果您认为抽样理论特性对于统计推断至关重要,那么您将(或应该)同样热衷于置信区间和假设检验,因为我们同意,它们具有这种对称性。我的回答是质疑者对“好的” CI和“不好的” HT之间的对比。通过将它们组合在一起,我想重新关注其他答案中提出的对比。
conjugateprior

7

在向早期统计专业的学生教授内曼·皮尔森假设检验时,我经常尝试将其定位在其原始环境中:即做出决策。然后,类型1和类型2错误的基础结构都变得很有意义,就像您可能接受原假设的想法一样。

我们必须做出决定,我们认为可以通过了解参数来改善决策的结果,我们只能对该参数进行估算。我们仍然必须做出决定。那么,在对参数进行估计的情况下,要做出的最佳决定是什么?

在我看来,NP假设检验在其原始设置中(面对不确定性做出决策)是完全合理的。参见例如N&P 1933,特别是p。291。

内曼和皮尔逊。关于最有效的统计假设检验问题。伦敦皇家学会的哲学著作。系列A,包含数学或物理特性的论文(1933)第一卷。231页289-337


4

假设检验是解决许多问题的有用方法:治疗的效果是零还是非零?我认为,诸如此类的陈述与统计模型或过程(包括区间估计器的构造)之间的能力对我很重要。

还值得一提的是,置信区间(传统意义上)在本质上并不比假设检验少“易犯罪”-有多少入门学生知道置信区间的真实定义?

也许问题不是假设检验或区间估计,因为它是相同的经典版本。贝叶斯公式很好地避免了这些问题。


2
@JMS,“有多少入门学生知道置信区间的真实定义?” 或者,就读博士学位的毕业生。
主教

相当!顺便说一句,我的意思是不挖任何条纹的学生或从业者。但是,期望没有参加统计学高级工作的人进行精神体操有点疯狂。
JMS

2
有多少可以说CI的真正定义?有多少人一致地使用它们?即使您不知道它不是什么CI,也很难认为“该参数很可能在所述时间间隔内” 。
概率

E报刊通常的报道性报道
华盛顿·席尔瓦,

1
我试图表达的是,假设检验不伴有功效估计,这是非常可疑的,区间估计没有这种额外的并发症来源。
华盛顿·席尔瓦,

2

原因是决策。在大多数决策中,您要么做,要么不做。您可能会整天不停地查看时间间隔,最后有一段时间您决定是否这样做。

假设检验非常适合这种简单的“是/否”现实。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.