什么是贝叶斯深度学习?


Answers:


10

在您的NIPS研讨会链接之外,Yee Whye Teh在NIPS上关于贝叶斯深度学习的主题演讲(视频:https : //www.youtube.com/watch?v= LVBvJsTr3rg,幻灯片:http://csml.stats。 ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/)。我认为在演讲的某个时刻,Teh总结了贝叶斯深度学习是将贝叶斯框架应用于深度学习的思想(例如,学习后验神经网络的权重),而贝叶斯深度学习是将贝叶斯框架的学习思想应用于深度学习。贝叶斯框架(如深高斯过程或深指数族)。当然,有些想法可以跨越这两个概念,例如可变自动编码器。当大多数人说贝叶斯深度学习时,它们通常是两者中的任何一个,这反映在您链接的研讨会(以及上一年的研讨会)上被接受的论文中。虽然这些想法可以追溯到Neal在90年代关于神经网络的贝叶斯学习的工作(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf),并且从那以后已经有很多年了,也许最近最重要的论文之一就是原始变体自动编码器论文(https://arxiv.org/pdf/1312.6114.pdf)。


10

我建议您首先了解传统贝叶斯神经网络中潜在的概率模型。在下文中,某些术语将以黑体字标出。请尝试搜索这些条款以查找更多详细信息。这只是基本概述。希望对您有所帮助。

让我们考虑的情况下回归前馈神经网络,建立一些符号。

令表示输入层的预测变量值。所述的值单位内层将被表示,对。最后,我们有了输出层Ž 1... Ž ñ = 1 ... 大号1 y 1y k(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

对于在第层的单元的权重偏差将分别由和表示,和。瓦特Ĵiwij()= 1 ... 大号= 1 ... Ñ Ĵ = 1 ... Ñ - 1bi()=1,,Li=1,Nj=1,,N1

令是单元在层上的激活函数,对于和。=1...大号=1...Ñgi():RN1Ri=1,,Li=1,N

常用的激活函数是logisticReLU(又称正部分)和tanh

现在,对于,定义层转换函数 其中 对于。ģ - [R ñ - 1[R Ñ ž - 1 1... ž=1,,Lz i = g i

G[Rñ-1个[Rñž1个-1个žñ-1个-1个ž1个žñ
=1...Ñ
ž一世=G一世Ĵ=1个ñ-1个w一世ĴžĴ-1个+b一世
一世=1个ñ

用表示所有层中所有单位的权重和偏差集,即 我们的神经网络是函数由层过渡函数组成而获得: θ = { 瓦特Ĵb = 1 ... 大号θG ^ θ

θ={w一世Ĵb一世=1个大号;一世=1个ñ;Ĵ=1个ñ-1个}
ģ θ = g ^ 大号 ģ 大号- 1 ģ 1 Gθ[Rp[Rķ
Gθ=G大号G大号-1个G1个

上面的描述中不涉及任何概率。最初的神经网络业务的目的是功能拟合

深度学习中的“深度” 代表正在考虑的神经网络中许多内部层的存在。

给定训练集 ,我们试图最小化目标函数 超过。对于预测的一些矢量在试验组中,预测的响应仅仅是,其中是解找到最小化问题。最小化的黄金标准是TensorFlow库使用现代GPU中可用的并行化工具实现的反向传播{X一世ÿ一世[Rp×[Rķ一世=1个ñ}

i=1nyiGθ(xi)2,
θxGθ^(x)θ^的(对于您的项目,请查看Keras界面)。而且,现在有可用的硬件来封装这些任务(TPU)。由于神经网络通常是过度参数化的,因此为了避免过度拟合,会将某种形式的正则化添加到配方中,例如,对目标函数添加诸如惩罚之类的,或在训练期间使用辍学杰弗里·欣顿Geoffrey Hinton,又名“深度学习教父”)和合作者发明了许多这样的东西。深度学习的成功故事无处不在。

图像是在80年代末和90年代初引入高斯似然 和一个简单的(可能是简单的)高斯先验,假设网络中所有权重和偏差的先验独立性:

大号Xÿθσ2σ-ñ经验值-1个2σ2一世=1个ñÿ一世-GθX一世2
πθσ2经验值-1个2σ02=1个大号一世=1个ñb一世2+Ĵ=1个ñ-1个w一世Ĵ2×πσ2

因此,权重和偏差的边际先验是具有零均值和共同方差正态分布。可以使原始的联合模型更多地参与其中,并在使推理更加困难的方面进行权衡。σ02

贝叶斯深度学习面临着从相应的后验分布进行采样的艰巨任务。完成此操作后,将自然地使用后验预测分布进行预测,并完全量化这些预测中涉及的不确定性。贝叶斯深度学习的圣杯是构建高效且可扩展的解决方案。此任务中使用了许多计算方法:Metropolis-HastingsGibbs采样哈密​​顿量蒙特卡罗Hamiltonian Monte Carlo),以及最近的变分推断(Variativeal Inference)

观看NIPS会议视频,了解一些成功案例:http : //bayesiandeeplearning.org/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.