Questions tagged «deep-learning»

对于与深度学习有关的问题,它指的是基于具有多个隐藏层的人工神经网络(ANN)的机器学习方法的子集。因此,形容词Deep指的是ANN的层数。Rina Dechter于1986年在论文“在约束满足问题中学习时学习”中显然引入了深度学习(尽管不是在机器学习或ANN的上下文中)。


2
神经网络的输入/输出编码,以学习基于网格的游戏
我正在写一个简单的玩具游戏,目的是在其上训练深层神经网络。游戏规则大致如下: 游戏的棋盘由六边形单元组成。 两位玩家都拥有相同的棋子集合,他们可以选择自由放置在棋盘上。 根据彼此的位置和配置放置不同类型的棋子奖励积分(或减少对手的积分)。 得分更高的人获胜。 还有其他规则(关于转弯,件数和类型等),但是在此问题中它们并不重要。我想设计一个深度神经网络,该网络可以通过与自身竞争来反复学习。我的问题是关于输入和输出的表示。尤其是: 由于碎片的模式很重要,所以我一直认为至少要有一些卷积层。电路板可以有各种尺寸,但原则上非常小(在我的测试中为6x10,可以通过几个单元进行扩展)。是否有意义?我可以使用哪种池? 如何代表双方?在这篇关于go的论文中,作者使用了两种输入矩阵,一种用于白宝石,另一种用于黑宝石。在这种情况下也可以工作吗?但是请记住,我有不同类型的片段,例如A,B,C和D。我应该使用2x4输入矩阵吗?对我来说,它似乎很稀疏,效率很低。我担心卷积层将无法正常工作。 我认为输出结果可能是代表董事会位置的矩阵上的概率分布,以及指示要播放的部分的概率单独数组。不过,我也需要代表的能力通过交替之际,这是非常重要的。如何在不降低其在其他概率中的重要性的情况下做到这一点? 而且最重要的是,我是否只强制执行获胜举动还是执行失举?实施获胜的举动很容易,因为我只是将所需的概率设置为1。但是当失败时,我该怎么办?将该移动概率设置为0,将所有其他概率设置为相同值?另外,即使最终得分差异与输出的含义相违背,通过最终得分差异实施移动是否有意义? 另外,我在node.js中开发了游戏引擎,并考虑将Synaptic用作框架,但是我不确定它是否可以与卷积网络一起工作(我怀疑是否有办法固定与本地感知领域相关的权重)。关于与节点兼容的其他库的任何建议?

3
如何在强化学习中实现受限的行动空间?
多亏了在Tensorflow之上构建的非常好的Tensorforce库,我正在使用PPO代理编写增强学习模型。 第一个版本非常简单,我现在正进入一个更复杂的环境,在该环境中,每个步骤都不提供所有操作。 假设有5个动作,它们的可用性取决于内部状态(由上一个动作和/或新的状态/观察空间定义): 2个动作(0和1)始终可用 仅当internal_state == 0时,才有2个动作(2和3)可用 1动作(4)仅在internal_state == 1时可用 因此,当internal_state == 0时有4个动作可用,而internal_state == 1时有3个动作可用。 我正在考虑实现该目标的几种可能性: 根据internal_state,在每一步更改操作空间。我认为这是胡说八道。 不执行任何操作:让模型了解选择不可用的操作没有影响。 几乎不执行任何操作:当模型选择不可用的操作时,会对奖励产生轻微的负面影响。 帮助模型:通过将整数合并到状态/观察空间中,通知模型什么是internal_state值+项目符号点2或3 还有其他方法可以实现吗?根据您的经验,哪一个最好?


2
生成对抗网络如何工作?
我正在阅读有关生成对抗网络(GAN)的信息,对此我有些怀疑。到目前为止,我了解到,在GAN中,有两种不同类型的神经网络:一种是生成型(GGG),另一种是判别型(DDD)。生成神经网络生成一些数据,这些数据由判别神经网络判断正确性。GAN通过将损失函数传递给两个网络来学习。 区分性(DDD)神经网络最初如何知道GGG生成的数据是否正确?我们是否必须先训练DDD然后将其与GGG一起添加到GAN中? 让我们考虑我训练有素的DDD网,它可以将图片分类的准确率达到90%。如果我们将此DDD网添加到GAN,则有10%的概率会将图像分类为错误。如果我们用这个DDD网络训练GAN,那么在分类图像时,它也会有同样的10%错误吗?如果是,那么GAN为何显示出令人满意的结果?

1
Deepmind的新“可分化神经计算机”将如何扩展?
Deepmind刚刚发表了一篇有关“可分化神经计算机”的论文,该论文基本上将神经网络与内存结合在一起。 这个想法是要教神经网络为特定任务创建和调用有用的显式记忆。这很好地补充了神经网络的功能,因为NN仅在权重中隐式存储知识,而用于执行单个任务的信息仅存储在网络激活中,并会随着添加的更多信息而迅速降解。(LSTM是一种尝试减缓这种短期记忆退化的方法,但仍然会发生。) 现在,它们可能不是在激活中保留必要的信息,而是在激活中保留特定信息的存储插槽地址,因此这些地址也应进行降级。我的问题是为什么这种方法应该扩展。数量更多的特定于任务的信息难道不应该使网络在其激活时保持所有适当内存插槽的地址的能力不堪重负吗?

2
是否有任何科学/数学论据阻止深度学习产生强大的AI?
我读了Judea Pearl的《为什么书》,其中提到深度学习只是一种荣耀的曲线拟合技术,将无法产生类似于人的智力。 在他的书中有这张图说明了认知能力的三个层次: 想法是,当前的深度学习技术所产生的“智能”仅处于关联级别。因此,AI距离问“如何使Y发生”(干预)和“如果我采取不同的行为怎么办,X还会发生吗?”之类的问题相去甚远。(反事实),曲线拟合技术极不可能使我们更接近更高的认知能力。 我发现他的论点在直觉上具有说服力,但我找不到任何可以支持或怀疑该论点的物理或数学定律。 那么,是否有任何科学/物理/化学/生物/数学论证阻止深度学习产生强大的AI(类人智力)?

7
可以训练AI生成故事大纲吗?
我知道,当前的一种流行方式是训练神经网络来生成诸如《朋友》或《辛普森一家》等剧本和新剧集,这很好:这很有趣,并且可能是制作可以实际生成的程序的必要的第一步。明智/可理解的故事。 在这种情况下,是否可以对神经网络进行专门的培训,以研究故事或电影剧本的结构,并可能生成情节点或《英雄之旅》中的步骤等,从而有效地编写故事大纲? 对我来说,这与许多在线上的无数绘图点生成器不同,尽管我必须承认它们的相似性。我只是想知道技术或实施是否还存在,如果存在的话,我会怎么做。

2
深度残差网络是否应被视为网络的整体?
问题是关于深度残留网络(ResNets)的体系结构。该模型在所有五个主要方面均赢得了“ 2015年大规模视觉识别挑战赛”(ILSVRC2015)的第一名: ImageNet分类:“超深”(Yann引用)152层网 ImageNet检测:比第二个好16% ImageNet本地化:比第二名好27% COCO检测:比第二名好11% COCO细分:比第二名好12% 资料来源: MSRA @ ILSVRC和COCO 2015竞赛(演示,第二张幻灯片) 下一篇文章中描述了这项工作: 用于图像识别的深度残差学习(2015,PDF) Microsoft研究团队(ResNets的开发人员:何凯明,张向宇,任少清,孙健)在其文章中: “ 深度残留网络中的身份映射(2016年) ” 指出深度起着关键作用: “ 我们通过一个简单但必不可少的概念获得这些结果-更深入。这些结果证明了突破深度极限的潜力。 ” 他们的演讲中也强调了这一点(更深-更好): -“更深层次的模型不应具有更高的训练误差。” -“更深的ResNet具有较低的训练误差,也具有较低的测试误差。” -“更深的ResNet具有更低的错误。” -“所有人都将从更深的功能中受益–累积收益!” -“更深的更好。” 这是34层残差的结构(供参考): 但是最近,我发现了一种理论,该理论引入了对残差网络的新颖解释,从而表明它们是指数集合。 残留网络是相对浅网络的指数集合(2016) Deep Resnet被描述为许多浅层网络,其输出集中在不同的深度。文章中有一张图片。我附上解释: 残留网络通常显示为(a),它是等式(1)的自然表示。当我们将此公式扩展为方程式(6)时,我们获得了3块残差网络(b)的分解图。从这个角度来看,很明显,残余网络具有连接输入和输出的O(2 ^ n)个隐式路径,添加一个块会使路径数量加倍。 在文章的结尾指出: 不是深度,而是使残留网络强大的整体。残留网络推动了网络多样性的极限,而不是网络深度的极限。我们提出的未分解视图和病灶研究表明,残差网络是指数级许多网络的隐含集合。如果大多数造成梯度的路径与网络的整体深度相比都非常短,那么深度增加 本身并不是残余网络的关键特征。我们现在认为,多重性(即网络在路径数方面的可表达性)起着关键作用。 但是,只有最近的理论可以得到证实或反驳。有时会发生一些理论被驳回而文章被撤回的情况。 我们到底应该把ResNets视为一个整体吗?集合还是深度使残差网络如此强大?甚至开发人员自己也可能不太了解自己的模型代表什么以及模型中的关键概念是什么?



5
为什么深度神经网络和深度学习不足以实现一般智力?
与深度学习(DL)和深度(er)网络相关的所有事物似乎都是“成功的”,至少进展非常迅速,并培养了人们对AGI可以达到的信念。这是流行的想象力。DL是解决许多问题(包括创建AGI)的强大工具。但是,这还不够。工具是必需的成分,但通常不足。 该领域的领先者正在寻求其他方面的进步。本报告/声明收集了Yoshua Bengio,Yann LeCun和Geoff Hinton的声明的链接。。该报告还解释了: DL的主要缺点(如我所见)是:依赖最简单的模型神经元(LeCun称其为“卡通”);使用19世纪统计力学和统计学的思想,这些思想是能量函数和对数似然方法的基础;以及反向支撑和随机梯度下降等技术的结合,导致应用范围非常有限(脱机,主要是分批,有监督的学习),需要高才能的从业人员(又名“随机研究生下降”),且价格昂贵标记的训练数据和计算能力。虽然DL对于可以吸引或购买人才并部署无限资源以收集数据并处理数据的大型公司非常有用,但DL对我们大多数人而言既无用又无用。 尽管有趣且相关,但这种解释并不能真正解决问题的要点:缺少什么? 这个问题似乎很广泛,但可能是由于缺乏简单的答案。有没有办法确定AGI缺少的DL?

1
深层神经网络的层可以看作是Hopfield网络吗?
Hopfield网络能够存储矢量并从嘈杂的版本开始检索它。他们这样做是为了设置权重,以便在将所有神经元设置为等于矢量值时最小化能量函数,并使用其嘈杂版本作为输入来检索矢量,并使网络沉降到最小能量。 抛开诸如无法保证网络将稳定在最接近的最小值之类的问题之类的问题(最终由Boltzmann机器解决,最终通过反向传播解决的问题),突破之处在于它们是抽象表示的起点。同一文档的两个版本将调用相同的状态,它们在网络中将以相同的状态表示。 正如Hopfield自己在1982年的论文中所写,具有新兴的集体计算能力的神经网络和物理系统 然后,本建模可以与基于表示其特征的集合的输入如何记住或分类实体或格式塔有关。 另一方面,深度学习的突破是构建输入的多个层次表示的能力,最终使AI从业者的生活更加轻松,从而简化了特征工程。(参见例如,代表性学习:回顾与新观点,Bengio,Courville,Vincent)。 从概念的角度来看,我相信可以将深度学习视为Hopfield网络的概括:从一个单一的表示形式到表示的层次结构。 从计算/拓扑的角度来看也是这样吗?如果不考虑Hopfield网络的简单程度(两态神经元,无向能量函数),可以将网络的每一层视为Hopfield网络,而将整个过程视为先前记忆的格式塔的顺序提取,以及对网络结构的重组。这些格式塔?

1
当我在PyTorch中使用Adam优化器降低学习速度时,损失会突然跳升
我正在auto-encoder使用Adam优化器(带有amsgrad=True)和MSE loss单通道音频源分离任务来训练网络。每当我将学习速率降低一个因素时,网络损耗就会突然跳升,然后下降,直到学习速率再次下降。 我正在使用Pytorch进行网络实施和培训。 Following are my experimental setups: Setup-1: NO learning rate decay, and Using the same Adam optimizer for all epochs Setup-2: NO learning rate decay, and Creating a new Adam optimizer with same initial values every epoch Setup-3: 0.25 decay in learning rate every 25 epochs, and Creating …

1
在多个连续动作的情况下,如何应用策略梯度?
可信区域策略优化(TRPO)和近端策略优化(PPO)是两种最先进的策略梯度算法。 通常,当使用单个连续动作时,将对损失函数使用一些概率分布(例如,高斯分布)。粗略的版本是: L (θ )= 对数(P(一个1个))A ,大号(θ)=日志⁡(P(一个1个))一个,L(\theta) = \log(P(a_1)) A, 其中一个一个A是奖励的优点,P(一个1个)P(一个1个)P(a_1)的特征在于,μμ\mu和σ2σ2\sigma^2附带像钟摆环境神经网络在这里:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。 问题是我无法使用策略梯度找到有关2种以上连续动作的任何论文(不是通过从Q函数转移梯度而使用不同方法的参与者批评方法)。 您知道如何使用TRPO在LunarLander环境中进行2次连续动作吗? 以下方法对策略梯度损失函数是否正确? L (θ )= (对数P(一个)+ 日志P(一个2))* A大号(θ)=(日志⁡P(a)+log⁡P(a2))∗AL(\theta) = (\log P(a_) + \log P(a_2) )*A

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.