什么是贝叶斯深度学习,它与传统贝叶斯统计数据和传统深度学习有何关系?
涉及的主要概念和数学是什么?我可以说这只是非参数贝叶斯统计吗?它的开创性工作以及当前的主要发展和应用是什么?
什么是贝叶斯深度学习,它与传统贝叶斯统计数据和传统深度学习有何关系?
涉及的主要概念和数学是什么?我可以说这只是非参数贝叶斯统计吗?它的开创性工作以及当前的主要发展和应用是什么?
Answers:
在您的NIPS研讨会链接之外,Yee Whye Teh在NIPS上关于贝叶斯深度学习的主题演讲(视频:https : //www.youtube.com/watch?v= LVBvJsTr3rg,幻灯片:http://csml.stats。 ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/)。我认为在演讲的某个时刻,Teh总结了贝叶斯深度学习是将贝叶斯框架应用于深度学习的思想(例如,学习后验神经网络的权重),而贝叶斯深度学习是将贝叶斯框架的学习思想应用于深度学习。贝叶斯框架(如深高斯过程或深指数族)。当然,有些想法可以跨越这两个概念,例如可变自动编码器。当大多数人说贝叶斯深度学习时,它们通常是两者中的任何一个,这反映在您链接的研讨会(以及上一年的研讨会)上被接受的论文中。虽然这些想法可以追溯到Neal在90年代关于神经网络的贝叶斯学习的工作(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf),并且从那以后已经有很多年了,也许最近最重要的论文之一就是原始变体自动编码器论文(https://arxiv.org/pdf/1312.6114.pdf)。
我建议您首先了解传统贝叶斯神经网络中潜在的概率模型。在下文中,某些术语将以黑体字标出。请尝试搜索这些条款以查找更多详细信息。这只是基本概述。希望对您有所帮助。
让我们考虑的情况下回归的前馈神经网络,建立一些符号。
令表示输入层的预测变量值。所述的值单位在内层将被表示,对。最后,我们有了输出层。(Ž (ℓ ) 1,... ,Ž (ℓ )ñ ℓ) ℓ = 1 ,... ,大号− 1 (y 1,… ,y k)
对于在第层的单元的权重和偏差将分别由和表示,和。ℓ 瓦特(ℓ )我Ĵ ℓ = 1 ,... ,大号我= 1 ... ,Ñ ℓ Ĵ = 1 ,... ,Ñ ℓ - 1
令是单元在层上的激活函数,对于和。我ℓℓ=1,...,大号我=1...,Ñℓ
常用的激活函数是logistic,ReLU(又称正部分)和tanh。
现在,对于,定义层转换函数 其中 对于。ģ (ℓ ):- [R ñ ℓ - 1 → [R Ñ ℓ:(ž (ℓ - 1 ) 1,... ,žz (ℓ ) i = g (ℓ ) i
用表示所有层中所有单位的权重和偏差集,即 我们的神经网络是函数由层过渡函数组成而获得: θ = { 瓦特(ℓ )我Ĵ,b (ℓ )我:ℓ = 1 ,... ,大号G ^ θ:
上面的描述中不涉及任何概率。最初的神经网络业务的目的是功能拟合。
深度学习中的“深度” 代表正在考虑的神经网络中许多内部层的存在。
给定训练集 ,我们试图最小化目标函数 超过。对于预测的一些矢量在试验组中,预测的响应仅仅是,其中是解找到最小化问题。最小化的黄金标准是TensorFlow库使用现代GPU中可用的并行化工具实现的反向传播
图像是在80年代末和90年代初引入高斯似然 和一个简单的(可能是简单的)高斯先验,假设网络中所有权重和偏差的先验独立性:
因此,权重和偏差的边际先验是具有零均值和共同方差正态分布。可以使原始的联合模型更多地参与其中,并在使推理更加困难的方面进行权衡。
贝叶斯深度学习面临着从相应的后验分布进行采样的艰巨任务。完成此操作后,将自然地使用后验预测分布进行预测,并完全量化这些预测中涉及的不确定性。贝叶斯深度学习的圣杯是构建高效且可扩展的解决方案。此任务中使用了许多计算方法:Metropolis-Hastings和Gibbs采样,哈密顿量蒙特卡罗(Hamiltonian Monte Carlo),以及最近的变分推断(Variativeal Inference)。
观看NIPS会议视频,了解一些成功案例:http : //bayesiandeeplearning.org/