贝叶斯回归:与标准回归相比,该如何做?


57

我对贝叶斯回归有一些疑问:

  1. 给定标准回归为。如果我想将其更改为贝叶斯回归,我是否需要同时为和(或者这样行不通)?y=β0+β1x+εβ0β1

  2. 在标准回归中,将尝试最小化残差以获得和单个值。在贝叶斯回归中如何完成?β0β1


我在这里真的很努力:

posterior=prior×likelihood

可能性来自当前数据集(所以这是我的回归参数,但不是单个值而是可能性分布,对吗?)。先验来自先前的研究(假设)。所以我得到了这个等式:

y=β1x+ε

与是我的可能性或后(或者这只是完全错误的)? β1

我简直不明白标准回归如何转换成贝叶斯回归。

Answers:


93

简单线性回归模型

yi=α+βxi+ε

可以用背后的概率模型来写

μi=α+βxiyiN(μi,σ)

也就是说,因变量遵循以均值参数化的,这是由参数和标准偏差线性化的线性函数。如果您使用普通的最小二乘估计这种模型,则不必担心概率公式,因为您正在通过将拟合值与预测值的平方误差最小化来搜索参数的最佳值。另一方面,您可以使用最大似然估计来估计此类模型,其中您将通过最大化似然函数来寻找参数的最优值。YμiXα,βσα,β

argmaxα,β,σi=1nN(yi;α+βxi,σ)

其中是在点的正态分布的密度函数,通过参数和标准差。Nyiα+βxiσ

在贝叶斯方法中,我们将假设参数的先验分布并使用贝叶斯定理,而不是单独使似然函数最大化。

posteriorlikelihood×prior

似然函数与上面的函数相同,但变化之处在于您假设估计参数处于先验分布并将它们包括在方程中α,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

“什么分布?” 这是一个不同的问题,因为有无数的选择。对于你能参数,例如假设通过一些参数化的正态分布的超参数,或者 -配送如果要承担更重的尾巴,或均匀分布的,如果你不想做太多的假设,但要承担参数可以是先验的 “给定范围内的任何值”,等等。对于您需要假设一定的先验分布必然大于零,因为标准偏差必须为正。这可能会导致模型制定,如以下John K. Kruschke所述。α,βtσ

贝叶斯线性回归模型公式化

(来源:http : //www.indiana.edu/~kruschke/BMLR/

当您以最大可能性为每个参数寻找一个最佳值时,在贝叶斯方法中,通过应用贝叶斯定理,您可以获得参数的后验分布。最终估算将取决于来自数据和先验的信息,但是数据中包含的信息越多,先验的影响力就越小

请注意,在使用统一先验时,它们在删除归一化常数后采用形式。这使得贝叶斯定理仅与似然函数成正比,因此后验分布将在与最大似然估计完全相同的点处达到最大值。接下来,在统一先验下的估计将与使用普通最小二乘法相同,因为最小化平方误差对应于最大化正常似然f(θ)1

在某些情况下,要使用贝叶斯方法估计模型,您可以使用共轭先验,因此后验分布是直接可用的(请参见此处的示例)。但是,在大多数情况下,后验分布将不直接可用,您将不得不使用Markov Chain Monte Carlo方法来估计模型(请检查使用Metropolis-Hastings算法估计线性回归参数的示例)。最后,如果您仅对参数的点估计感兴趣,则可以使用最大后验估计,即

argmaxα,β,σf(α,β,σY,X)

有关逻辑回归的更详细描述,您可以检查贝叶斯logit模型-直观的解释?线。

要了解更多信息,您可以查看以下书籍:

Kruschke,J.(2014年)。做贝叶斯数据分析:R,JAGS和Stan教程。学术出版社。

Gelman,A.,Carlin,JB,Stern,HS和Rubin,DB(2004)。 贝叶斯数据分析。查普曼和霍尔/ CRC。


2
+1给出问题的方式,我可能会更强调这种哲学差异:在普通的最小二乘法和最大似然估计中,我们从问题“的最佳值是(也许稍后采用)?” βi,而在完整的贝叶斯方法中,我们从以下问题开始:“对于未知值βi,我们能说什么?” 然后如果需要点估计,可以继续使用最大后验或后验均值。
JiK

2
+1。可能需要指出来阐明贝叶斯方法与OLS方法之间的关系的另一件事是,可以将OLS理解为平坦先验条件下的后均值(至少据我所知)。如果您可以在回答中详细说明这一点,那就太好了。
变形虫说恢复莫妮卡

@amoeba这是一个好点,我会考虑的。但是,另一方面,我不想公开得太长,因此有必要详细介绍。
蒂姆

1
@amoeba仅供参考,我对此做了简短评论。
蒂姆

22

给定数据集其中,贝叶斯线性回归模型在以下方式:D=(x1,y1),,(xN,yN)xRd,yR

上一个:

wN(0,σw2Id)

w是向量,因此先前的分布是多元高斯分布;和是单位矩阵。(w1,,wd)TIdd×d

可能性:

YiN(wTxi,σ2)

我们假设YiYj|w,ij

现在,我们将使用精度而不是方差,即和。我们还将假设是已知的。a=1/σ2b=1/σw2a,b

先验可以表示为

p(w)exp{b2wtw}

可能性

p(D|w)exp{a2(yAw)T(yAw)}

其中和是矩阵,其中,第i行是。y=(y1,,yN)TAn×dxiT

那么后验是

p(w|D)p(D|w)p(w)

经过多次计算,我们发现

p(w|D)N(w|μ,Λ1)

其中(是精度矩阵)Λ

Λ=aATA+bId
μ=aΛ1ATy

注意等于正则线性回归的,这是因为对于高斯而言,均值等于众数。μwMAP

此外,我们可以对进行一些代数运算,并得到以下等式():μΛ=aATA+bId

μ=(ATA+baId)1ATy

并与进行比较:wMLE

wMLE=(ATA)1ATy

的额外表达式对应于先前的表达式。对于的特殊情况,这类似于Ridge回归的表达式。岭回归更一般,因为该技术可以选择不正确的先验(在贝叶斯角度)。μλ=ba

对于预测性后验分布:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

可以计算出

y|x,DN(μTx,1a+xTΛ1x)

参考:Lunn等。BUGS书

有关使用JAGS / Stan等MCMC工具的信息,请检查Kruschke的Doing Bayesian数据分析


谢谢jpneto。我觉得这是一个很好的答案,但是由于缺乏数学知识,我还不了解。但是在获得一些数学技能之后,我肯定会再读一遍
TinglTanglBob 2016年

1
这很好,但是假设精度已知的情况并不常见。假设方差为反Gamma分布,即精度为Gamma分布,这不是更常见吗?
DeltaIV

+1。您能否对“ Ridge回归更为笼统,因为该技术可以选择不正确的先验”发表更多评论?我不明白 我以为之前RR =高斯(正确)。w
变形虫说恢复莫妮卡

@amoeba:高斯先验为但可以为零,这会导致不正确的先验,即会导致MLE。wN(0,λ1Id)λ
jpneto

1
@DeltaIV:当然,当我们不确定参数时,可以使用先验模型进行建模。已知精度的假设是使其更易于查找解析解。通常,这些解析解是不可能的,我们必须使用近似值,例如MCMC或某些变分技术。
jpneto
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.