贝叶斯假设检验在推理和决策理论的框架中意味着什么?


15

我的背景主要是机器学习,我试图学习贝叶斯假设检验的含义。我对概率的贝叶斯解释表示满意,并且在概率图形模型的背景下我对此很熟悉。但是,令我感到困惑的是在统计推断的背景下“假设”一词的含义。

我想我对机器学习所使用的词汇与统计和推理中通常使用的词汇感到困惑。

监督学习的背景下,我通常认为该假设是将示例映射到其标签即的预测功能h:Xÿ。但是,在我看来,假设在我所做的阅读中并不具有相同的含义。让我粘贴我正在阅读的阅读摘要:

在此处输入图片说明

如果仔细阅读,它还会显示:

观察到的数据有不同的模型...

他们使用单词模型吗?对我而言,单词模型让我想到了一组功能,如果我们选择特定的预测功能。即功能的假设类别。例如,可以是二次函数的假设类(2级多项式)。但是,在我看来,他们在此摘录中使用单词模型和假设作为同义词(在我看来,它们是完全不同的单词)。Hd2

然后继续提到我们可以对假设进行先验(在贝叶斯环境中要做的完全合理的事情):

pHH     ={01中号-1}

我们也可以用当前的假设来表征数据:

pÿ|H|H     ={01中号-1}

并根据一些数据(和贝叶斯定律)更新我们目前的看法:

pH|ÿH|ÿ     ={01中号-1}

但是,我想我更习惯于将贝叶斯估计值放在假设类中而不是整个假设类中的特定参数(例如)上。基本上,由于这些“假设”似乎与我习惯的机器学习上下文中的假设不同,因此在我看来,这些假设与特定的θ参数相比,与假设类别更相似。θθ

在这一点上,我确信“假设”的含义与预测函数中的含义相同(例如,由参数参数化),但是我认为我错了……θ

更让我感到困惑的是,后来这些相同的读物继续为他们观察到的每个训练示例指定了特定的“假设”。让我粘贴我的意思的摘录:

在此处输入图片说明

这使我感到困惑的原因是,如果我将假设解释为参数,那么对我来说,为我们看到的每个样本值指定一个特定参数是没有意义的。在这一点上,我得出的结论是我真的不知道假设的含义,因此我发布了这个问题。

但是,我没有完全放弃,我研究了假设在常客统计中的含义,并找到了以下可汗学院视频。该视频实际上对我来说很有意义(也许您是常客!:)。但是,似乎他们获得了一堆数据(例如某些“样本集”),并且基于样本集的属性,他们决定接受还是拒绝有关数据的零假设。但是,在我正在阅读的贝叶斯语境中,在我看来,对于观察到的每个数据[点] 矢量,它们都用“似然比检验”的假设“标记”它:

在此处输入图片说明

他们向每个数据样本分配假设的方式,甚至在我们为每个训练集附加标签的情况下,似乎也像是监督学习的设置。但是,我认为这不是他们在这种情况下所做的。他们在做什么?为每个数据样本分配假设是什么意思?假设的含义是什么?单词模型是什么意思?

基本上,在对我的困惑进行了长时间的解释之后,有人知道这种情况下的贝叶斯假设检验意味着什么吗?


如果您需要任何澄清或任何改善我的问题的方式,或者使该问题有意义的话,我非常乐于提供帮助:)


在寻找答案的过程中,我发现了一些与统计假设检验有关的有用信息:

如果您来自CS背景(例如我),那么本主题可以很好地介绍该主题:

对计算机科学家来说,统计假设检验有什么好的介绍?

在某个时候,我询问了“默认参数”(我应该定义我的意思。我认为这是一个标准术语,但不是,所以在这里我将解决它),我想我真正的意思是怎么做您可以为每个假设指定参数。例如,您如何确定零假设及其参数。有一个与此有关的问题:

如何在假设检验中指定原假设


@西安我阅读了以下维基百科文章:en.wikipedia.org/wiki/Statistical_model是什么意思是模型和假设?感谢您耐心等待:)
Pinocchio 2014年

3
我不愿参加这个讨论,因为我认为您的问题实际上是理解假设检验原则上的含义之一,而不是具体理解贝叶斯框架中的假设检验。为了解决这个问题,我建议看一看盖瑟(Geisser)的书《参数统计推断的模式》。books.google.ca/...
rocinante

@rocinante我想我同意你的看法。我对一般的假设检验感到困惑(贝叶斯框架根本没有帮助)。我一定会看看。感谢您的耐心配合和谅解,不胜感激。
Pinocchio 2014年

要理解这不是一件容易的事,因为以简洁的方式表达它不是一件容易的事。与其以抽象的术语(例如地图)来思考,
不如

1
2/2假设您有一个硬币,并且想看看它是否公平,因此将其翻转50次。现在,您有了一个数据集,您可以据此做出一些推断(即硬币是否有偏向)。从逻辑上讲,如果硬币是公平的,则大约一半的抛掷应该是正面。(请注意,这不是统计信息的推导,而是您自己的逻辑推理)。那就是你的假设。您可以通过两种方法检验该假设:贝叶斯方法和常客方法。
rocinante 2014年

Answers:


10

一个统计模型是由一个家庭的概率分布给出。当模型是参数化时,该族由未知参数索引: F = { f | θ ; θ ∈ Θ } 如果一个人想上测试一个假设θħ 0θ

F={f(|θ); θΘ}
θ,可以考虑两个模型是在反对: ˚F ˚F 0 = { ˚F ·&| θ ; θ ∈ Θ 0 }我的角度来看贝叶斯,我在背后的数据模型,指数绘制推论中号。因此,我把事先在这个指数, ρ 0 ρ 一个,以及关于两种模型的参数, π 0θ 超过 Θ 0 πH0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ)Θ0超过 θ。和我然后推断这个指数的后验分布: π = 0 | X = ρ 0 ∫ Θ 0 ˚F X | θ π 0θ d θπa(θ)Θ文件您连接到进入更多细节从这个角度出发,除非您有能力阅读整本贝叶斯书,否则应该将其作为选择假设进行统计检验的入口。甚至是一本机器学习书
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
就像凯文·墨菲Kevin Murphy一样

XN(θ,1)H0:θ=0θ=0N(0,1θθñ010ρ0=1/2

π=0|X=12π经验值{-X2/2}12π经验值{-X2/2}+[R12π经验值{-X-θ2/2}12π×10经验值{-θ2/20}dθ=经验值{-X2/2}经验值{-X2/2}+111经验值{-X2/22}

抱歉,如果我的问题有点重复,但至少在我提供的文档中,我仍然不确定该假设的含义。当一个概率pHH0 被分配,是否意味着我们在以下方面存在不确定性(用您的回答表示) F0 或具体 θF0?例如,当它说pÿ|Hÿ|H0,这是否意味着给定某些特定数据y的可能性,因为描述它的数据来自于 H0 或从中指定的某些特定参数 H0
Pinocchio 2014年

或是一个假设 H 表示两者(一对),特定的参数化 θ 来自特定家庭 F。即H=θF 哪里 θF。顺便说一句,我感谢您的宝贵时间,并竭诚为您服务。Thnx :)
Pinocchio

您提到的对是(模型索引,参数值),两者都具有先验概率。所以ϱ0 是模型的先验概率或信念 H0 (要么 F0)是正确的选择(默认选择 ϱ0=0)和 π0θ 是参数的先验分布 θ 下模型的 H0
西安

因此,如果假设是提议的统计模型和默认参数的元组,那么如何选择默认参数?
Pinocchio 2014年

我不明白您所说的“默认参数”是什么意思:一个假设是一个模型,其中所有参数都固定为已知值(例如 θ=0在上面的示例中)或某些参数未知。在后一种情况下,贝叶斯方法意味着对那些未知数进行先验分布。
西安

4

很好的问题。我认为您的困惑可能是由于“频率论”和“贝叶斯”观点之间的一些基本差异引起的。我在前者方面有很多经验,而对后者则是新手,因此尝试一些简单的观察可能对我也有帮助。我对您的问题进行了编辑,以使一些区别很清楚-至少据我所知。我希望你不要介意!如果我出了错,您可以重新编辑您的问题或对此回复添加评论。

1)听起来听起来太基础了:模型就是试图解释现实的任何陈述,例如“如果我早餐吃煎饼,那一定是星期二”。这样,模型就是一个假设。George Box的一句名言:“所有模型都是错误的,有些模型是有用的。” 为了使模型有用,必须有某种方法对其进行测试。输入竞争假设的概念和您的问题之一的答案。我建议“ ...在统计推断的背景下”,假设是任何可能有用并且可以进行数学检验的模型。因此,假设检验是一种决定模型是否有用的方法。总而言之,假设是正在考虑的模型。可能是相同功能或不同功能的不同参数值。

2)您的Kahn视频是贝叶斯所谓的假设检验的“频率论”方法的一个示例,因此当您尝试将其应用于贝叶斯的讲义时,它可能会使您感到困惑。我一直试图在两种方法的应用之间进行简单的区分(这可能很危险)。我认为我对哲学上的区别理解得很好。据我所知,“ Frequentist”假设数据是随机的,并测试观察到的数据被赋予非随机参数的可能性。“贝叶斯”假设数据是固定的,并确定随机参数的最可能值。这种差异导致了不同的测试方法。

在“ Frequentist”假设检验中,一个可能有用的模型可以解释某种效果,因此可以将其与“ null hypothesis”(无效假设)进行比较。试图建立一个有用的模型,该模型与无效模型互斥。然后,测试是在无影响的假设下观察数据的概率。如果发现该概率很低,则将拒绝原假设,而剩下的就是所有剩余的假设。(请注意,纯粹主义者永远不会“接受”零假设,而只会“拒绝”零假设。这听起来像是天使在大头针上跳舞,但区别是一种基本的哲学观点。)引言统计通常始于最简单的例子是:“两组不同。”一样大或更大的作为由随机实验中测量因为它们不是不同。这通常是t检验,零假设是均值之差为零。因此,该参数是固定值为零的平均值。

贝叶斯说:“等一下,我们进行了这些测量,但它们不同的,那么可能性有多大?” 他们计算(现在)随机参数的每个值的概率,并选择最高的概率。因此,从某种意义上说,参数的每个可能值都是一个单独的模型。但是现在,他们需要一种方法来决定概率最高的模型是否足够重要。因此,您的讲义引入了成本函数。为了做出好的决定,需要对做出错误决定的后果进行一些假设。

3)“为每个数据样本分配假设是什么意思?” 我认为不是。注意“采样点”的含义。我相信他们指的是特定的样本向量,并且想知道样本空间中所有样本向量的每个假设的可能性。等式(14)和(15)显示了如何比较特定样本矢量的两个假设。因此,他们通过展示如何只比较两个假设,简化了比较多个假设的一般论点。


0

假设您有一组数据。数据由长度(L),宽度(W),高度(H)和体积(V)组成。

如果我们对盒子/几何不太了解,可以尝试模型:

V = a*L + b*W + c*H + e

该模型具有三个可以改变的参数(a,b,c),以及描述假设与数据拟合程度的误差/成本项(e)。参数值的每种组合都将被视为不同的假设。选择的“默认”参数值通常为零,在上面的示例中,它对应于V与L,W,H之间的“无关系”。

人们要做的是通过检查e是否超出某个临界值来检验该“默认”假设,通常是通过假设模型拟合周围误差的正态分布来计算p值来进行的。如果该假设被拒绝,那么他们会找到a,b,c参数的组合,从而使可能性最大化,并提出这是最可能的假设。如果它们是贝叶斯方法,则将每组参数值的可能性乘以先验,然后选择使后验概率最大化的解决方案。

显然,这种策略不是最优的,因为该模型假定了可加性,并且会错过正确的假设是:

V = L*W*H + e

编辑: @Pinocchio

当没有合理的理由从无限多种可能中选择一个/几个函数(或您所说的“假设类别”)时,也许有人不同意假设检验不是最优的说法。当然,这是很简单的,并且可以在“给定成本函数和所提供的选择的情况下最适合”的有限意义上使用“最佳”。该评论使之成为我的答案,因为我不喜欢您的课堂笔记中如何掩盖模型规范问题。这是大多数科学工作者面临的主要问题,对于afaik而言,没有算法。

此外,在我了解历史记录之前,我无法理解p值,假设检验等,因此也许对您也有帮助。频繁的假设检验存在多种混乱的来源(我对贝叶斯变体的历史不太了解)。

在Neyman-Pearson的意义上,最初有所谓的“假设检验”,是Ronald Fisher所开发的“重要性检验”,也是在整个科学中广泛使用的这两种策略的定义不明确,从不恰当的“混合”式(可以使用以上术语或“无效假设显着性检验”来随意提及)。尽管我不建议您以维基百科页面为权威,但可以在此处找到许多讨论这些问题的资料。一些要点:

  1. 使用“默认”假设不是原始假设测试过程的一部分,而是应该使用户使用先验知识来确定所考虑的模型。如果我们没有特别的理由选择给定的假设进行比较,那么该模型的支持者们从未明确建议过该怎么做。人们常说,这种方法适用于质量控制,如果有已知的公差可以与某些测量结果进行比较。

  2. 在费舍尔的“重要性检验”范式下没有其他假设,只有零假设,如果根据数据认为不太可能,则可以拒绝该假设。从我的阅读中,费舍尔本人对默认无效假设的使用模棱两可。我永远找不到他对此事发表明确评论,但是他当然不建议这应该是唯一的无效假设。

  3. 默认零假设的使用有时被解释为假设检验的“滥用”,但对于提到的流行混合方法至关重要。有观点认为,这种做法通常是“无用的准备”:

    “研究人员制定了理论预测,通常是作用的方向……当数据实际上显示出预测的定向结果时,这似乎证实了这一假设。研究人员测试了“稻草人”无效假设,即该影响实际上是零。如果不能在.05级别(或某些变体)上拒绝后者,那么就不能要求对该理论进行明显的确认...这种类型的测试中的一个常见错误是混淆了实际达到的显着性水平(对于拒绝具有原始理论所达到的确认水平的稻草人零用...确认的强度实际上取决于[研究人员的数值预测的敏锐度],而不取决于稻草人零用的显着性水平。”

    原假设检验心理学的争议。戴维·H·克兰兹(David H Krantz)。美国统计协会杂志;1999年12月;94、448;1372-1381

可汗学院的视频就是这种混合方法的一个例子,并且犯了该引用中提到的错误。从该视频中获得的信息,我们只能得出结论,即注射的大鼠与未注射的大鼠有所不同,而视频中则声称我们可以得出结论:“该药肯定有一定作用”。进行一些反思会使我们考虑到,被测试的大鼠可能比未注射的大鼠要大,等等。在为我们的理论寻求证据之前,我们需要排除可能的替代解释。该理论的预测越具体,则完成该任务就越困难。

编辑2:

也许以您的医疗诊断记录为例将有所帮助。说患者可以是“正常”或“高血压危机”。

我们有事先的信息,只有1%的人处于高血压危机中。患有高血压危机的人的收缩压遵循正态分布,均值= 180,标准差= 10。同时,正常人的血压来自正态分布,平均值为120,标准差为10。判断一个人正常时的成本为零,错过诊断的成本为1,由于治疗带来的副作用的成本为0.2,无论他们是否处于危机之中。然后,下面的R代码计算阈值(eta)和似然比。如果似然比大于我们决定处理的阈值,如果小于,则不决定:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

在上述情况下,阈值eta = 15.84。如果我们进行三个血压测量并得出139.9237、125.2278、190.3765,则H1的可能性比为27.6:患有高血压危机的患者。由于27.6大于我们将选择处理的阈值。该图以绿色显示正常假设,以红色显示高血压。黑色竖线表示观察值。

在此处输入图片说明


对此投下反对票的人可以解释吗?这个答案怎么了?:S
Pinocchio 2015年

@Pinocchio我试图在答案中阐明一些历史,“假设检验”由于这个原因很难讨论。我想我已经回答了有关如何使用模型/假设一词的问题,但我不理解这一点:“将假设分配给每个数据样本意味着什么?”
Livid

我不明白为什么这个答案被低估了,为什么它没有被更多地赞成。真的很棒。它可能会使用更多的理论定义,但显然比统计人员更面向更广泛的受众。使用GLM的第一个示例特别具有启发性,并且完全符合我的(大量)学术著作。底线是,频繁度假设检验和贝叶斯假设检验之间的主要区别在于先验会计,以便计算MAP(而不是仅计算MLE)。
凌晨

我可能会补充说,使用GLM的第一个示例的图形表示非常棒且很有启发性,也许使用一种杠杆图
凌晨
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.