Answers:
简单线性回归模型
可以用背后的概率模型来写
也就是说,因变量遵循以均值参数化的,这是由参数和标准偏差线性化的线性函数。如果您使用普通的最小二乘估计这种模型,则不必担心概率公式,因为您正在通过将拟合值与预测值的平方误差最小化来搜索参数的最佳值。另一方面,您可以使用最大似然估计来估计此类模型,其中您将通过最大化似然函数来寻找参数的最优值。
其中是在点的正态分布的密度函数,通过参数和标准差。
在贝叶斯方法中,我们将假设参数的先验分布并使用贝叶斯定理,而不是单独使似然函数最大化。
似然函数与上面的函数相同,但变化之处在于您假设估计参数处于先验分布并将它们包括在方程中
“什么分布?” 这是一个不同的问题,因为有无数的选择。对于你能参数,例如假设通过一些参数化的正态分布的超参数,或者 -配送如果要承担更重的尾巴,或均匀分布的,如果你不想做太多的假设,但要承担参数可以是先验的 “给定范围内的任何值”,等等。对于您需要假设一定的先验分布必然大于零,因为标准偏差必须为正。这可能会导致模型制定,如以下John K. Kruschke所述。
(来源:http : //www.indiana.edu/~kruschke/BMLR/)
当您以最大可能性为每个参数寻找一个最佳值时,在贝叶斯方法中,通过应用贝叶斯定理,您可以获得参数的后验分布。最终估算将取决于来自数据和先验的信息,但是数据中包含的信息越多,先验的影响力就越小。
请注意,在使用统一先验时,它们在删除归一化常数后采用形式。这使得贝叶斯定理仅与似然函数成正比,因此后验分布将在与最大似然估计完全相同的点处达到最大值。接下来,在统一先验下的估计将与使用普通最小二乘法相同,因为最小化平方误差对应于最大化正常似然。
在某些情况下,要使用贝叶斯方法估计模型,您可以使用共轭先验,因此后验分布是直接可用的(请参见此处的示例)。但是,在大多数情况下,后验分布将不直接可用,您将不得不使用Markov Chain Monte Carlo方法来估计模型(请检查使用Metropolis-Hastings算法估计线性回归参数的示例)。最后,如果您仅对参数的点估计感兴趣,则可以使用最大后验估计,即
有关逻辑回归的更详细描述,您可以检查贝叶斯logit模型-直观的解释?线。
要了解更多信息,您可以查看以下书籍:
Kruschke,J.(2014年)。做贝叶斯数据分析:R,JAGS和Stan教程。学术出版社。
Gelman,A.,Carlin,JB,Stern,HS和Rubin,DB(2004)。 贝叶斯数据分析。查普曼和霍尔/ CRC。
给定数据集其中,贝叶斯线性回归模型在以下方式:
上一个:
是向量,因此先前的分布是多元高斯分布;和是单位矩阵。
可能性:
我们假设
现在,我们将使用精度而不是方差,即和。我们还将假设是已知的。
先验可以表示为
可能性
其中和是矩阵,其中,第i行是。
那么后验是
经过多次计算,我们发现
其中(是精度矩阵)
注意等于正则线性回归的,这是因为对于高斯而言,均值等于众数。
此外,我们可以对进行一些代数运算,并得到以下等式():
并与进行比较:
的额外表达式对应于先前的表达式。对于的特殊情况,这类似于Ridge回归的表达式。岭回归更一般,因为该技术可以选择不正确的先验(在贝叶斯角度)。
对于预测性后验分布:
可以计算出
参考:Lunn等。BUGS书
有关使用JAGS / Stan等MCMC工具的信息,请检查Kruschke的Doing Bayesian数据分析