Questions tagged «deep-learning»

机器学习领域,主要是通过深度神经网络来学习数据的分层表示。

2
批归一化如何以及为什么使用移动平均值来跟踪模型训练的准确性?
我正在阅读批处理规范化(BN)论文(1),但不了解需要使用移动平均值来跟踪模型的准确性,即使我接受这样做是对的,我也不明白他们到底在做什么。 据我所知(我是错的),该论文提到一旦模型完成训练,它将使用人口统计数据而不是小批量统计数据。在讨论了无偏估计(对我来说是切线的,并且不理解为什么如此讨论)之后,他们说: 取而代之的是使用移动平均值,我们在模型训练时跟踪模型的准确性。 那是令我困惑的部分。他们为什么要进行移动平均以估计模型的准确性以及在哪些数据集上? 通常人们会做些什么来估计其模型的泛化,他们只是跟踪模型的验证误差(并可能尽早停止其梯度下降以进行正则化)。但是,批处理规范化似乎在做完全不同的事情。有人可以澄清什么以及为什么做不同的事情吗? 1:Ioffe S.和Szegedy C.(2015年), “批处理规范化:通过减少内部协变量偏移来加速深层网络训练”, 第32届国际机器学习会议论文集,法国里尔,2015年 。机器学习研究杂志: W&CP卷37




3
如何正确使用提早停止训练深度神经网络?
我有一个深层的神经网络模型,需要在包含约100,000个示例的数据集上进行训练,我的验证数据包含约1000个示例。因为训练每个示例都需要时间(每个示例大约需要0.5s),并且为了避免过拟合,我希望尽早停止以防止不必要的计算。但是我不确定如何通过提前停止来正确地训练我的神经网络,这是我现在不太了解的几件事: 好的验证频率是多少?我应该在每个时期结束时在验证数据上检查我的模型吗?(我的批次大小为1) 是否存在前几个时期可能会在开始收敛到更好的价值之前产生更差结果的情况?在这种情况下,在检查是否提前停止之前,我们应该在几个时期内训练我们的网络吗? 当验证损失可能会上升或下降时,该如何处理?在这种情况下,提前停止可能会阻止我的模型进一步学习,对吗? 先感谢您。

3
偏置节点在神经网络中的重要性
我很好奇知道偏置节点对于现代神经网络的有效性有多重要。我很容易理解,在只有几个输入变量的浅层网络中,它很重要。但是,诸如深度学习之类的现代神经网络通常具有大量的输入变量来决定是否触发某个神经元。仅仅从LeNet5或ImageNet中删除它们是否会产生真正的影响?


4
什么时候应该使用变型自动编码器而不是自动编码器?
我了解变体自动编码器和常规(确定性)自动编码器的基本结构以及它们背后的数学原理,但是何时,为何以及为什么我会偏爱一种自动编码器呢?我能想到的是,变分自动编码器的潜在变量的先验分布使我们可以对潜在变量进行采样,然后构造新图像。与确定性自动编码器相比,可变自动编码器的随机性有什么优势?

5
“转移学习”和“领域适应”之间有什么区别?
“转移学习”和“领域适应”之间有什么区别吗? 我不了解上下文,但是我的理解是,我们有一些数据集1并对其进行训练,之后我们又有了另一个数据集2,我们希望针对该数据集2适应我们的模型而无需从头进行重新训练,为此我们需要进行“转移学习”和“域自适应”有助于解决此问题。 根据卷积神经网络领域: “转移学习”是指“微调” [1] 在这种情况下,[2]是不受监督的,但是“域自适应”是否应始终不受监督?


3
神经网络的标志性(玩具)模型
我的研究生物理学教授以及诺贝尔奖获得者费曼(Feynman)总是会提出他们所谓的玩具模型,以说明物理学的基本概念和方法,例如谐波振荡器,摆锤,陀螺和黑匣子。 什么样的玩具模型用来说明神经网络应用的基本概念和方法?(请参考。) 所谓玩具模型,是指一种特别简单,尺寸最小的网络,该网络适用于高度受限的问题,通过该网络可以介绍基本方法,并可以通过实际实现来测试和理解自己的理解,即构造基本代码,并且最好在一定程度上执行/手动检查基本数学或在符号数学应用程序的辅助下进行检查。

2
深度学习与决策树和提升方法
我正在寻找可以比较和讨论(经验或理论上)的论文或文章: Boosting和决策树算法(例如Random Forests或AdaBoost和GentleBoost)应用于决策树。 与 深度学习方法,例如受限玻尔兹曼机,分层时间记忆,卷积神经网络等。 更具体地说,有人知道在速度,准确性或收敛性方面讨论或比较这两种机器学习方法的文章吗?另外,我正在寻找能够解释或总结第二个模块中的模型或方法之间差异(例如优缺点)的文本。 直接解决这种比较的任何指针或答案将不胜感激。


2
是否应在不进行替代的情况下抽取随机抽取的用于小批量训练神经网络的训练样本?
我们定义一个时期为已经遍历所有可用训练样本的全部,而最小批量大小则是我们求平均值以找到下降梯度所需的权重/偏差的样本数。 我的问题是,我们是否应该从训练示例集中取而代之,以便在一个时期内生成每个小批量生产。我觉得我们应该避免替换,以确保我们实际上“抽取了所有样本”以满足时代的要求,但是很难以一种或另一种方式找到确定的答案。 我已经尝试使用Google搜索和阅读Ch。Nielsen的《神经网络与深度学习》中的 1种,但没有找到明确的答案。在该文本中,尼尔森(Nielsen)没有指定随机抽样而不进行替换,而是暗示这样做。 如果需要,可以在这里找到更清晰的正式培训形式-https: //stats.stackexchange.com/a/141265/131630 编辑:这个问题似乎与我相似,但目前尚不清楚如何将期望的线性对独立性无视的事实应用于这种情况- 是否应在有或没有替代的情况下进行抽样


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.