人工智能

对于在纯数字环境中可以模仿“认知”功能的世界中对生活和挑战感兴趣的人们的问答

1
如何保持ML / RL社区的最新研究者?
作为一个想从事机器学习的学生,我想知道如何开始我的学习,以及如何跟随它以保持最新。例如,我愿意研究RL和MAB问题,但是关于这些主题的文献很多。而且,这些主题是由来自不同社区的研究人员研究的,例如AI和ML,运筹学,控制工程,统计等。此外,我认为每周都有几篇关于这些主题的论文出版,因此很难追踪。 如果有人可以提出一个路线图来开始研究这些主题,关注它们以及我应该如何选择和研究新发表的论文,我将非常感激。最后,我愿意了解RL和MAB问题的新趋势。

1
深层神经网络的层可以看作是Hopfield网络吗?
Hopfield网络能够存储矢量并从嘈杂的版本开始检索它。他们这样做是为了设置权重,以便在将所有神经元设置为等于矢量值时最小化能量函数,并使用其嘈杂版本作为输入来检索矢量,并使网络沉降到最小能量。 抛开诸如无法保证网络将稳定在最接近的最小值之类的问题之类的问题(最终由Boltzmann机器解决,最终通过反向传播解决的问题),突破之处在于它们是抽象表示的起点。同一文档的两个版本将调用相同的状态,它们在网络中将以相同的状态表示。 正如Hopfield自己在1982年的论文中所写,具有新兴的集体计算能力的神经网络和物理系统 然后,本建模可以与基于表示其特征的集合的输入如何记住或分类实体或格式塔有关。 另一方面,深度学习的突破是构建输入的多个层次表示的能力,最终使AI从业者的生活更加轻松,从而简化了特征工程。(参见例如,代表性学习:回顾与新观点,Bengio,Courville,Vincent)。 从概念的角度来看,我相信可以将深度学习视为Hopfield网络的概括:从一个单一的表示形式到表示的层次结构。 从计算/拓扑的角度来看也是这样吗?如果不考虑Hopfield网络的简单程度(两态神经元,无向能量函数),可以将网络的每一层视为Hopfield网络,而将整个过程视为先前记忆的格式塔的顺序提取,以及对网络结构的重组。这些格式塔?

1
当我在PyTorch中使用Adam优化器降低学习速度时,损失会突然跳升
我正在auto-encoder使用Adam优化器(带有amsgrad=True)和MSE loss单通道音频源分离任务来训练网络。每当我将学习速率降低一个因素时,网络损耗就会突然跳升,然后下降,直到学习速率再次下降。 我正在使用Pytorch进行网络实施和培训。 Following are my experimental setups: Setup-1: NO learning rate decay, and Using the same Adam optimizer for all epochs Setup-2: NO learning rate decay, and Creating a new Adam optimizer with same initial values every epoch Setup-3: 0.25 decay in learning rate every 25 epochs, and Creating …

1
在多个连续动作的情况下,如何应用策略梯度?
可信区域策略优化(TRPO)和近端策略优化(PPO)是两种最先进的策略梯度算法。 通常,当使用单个连续动作时,将对损失函数使用一些概率分布(例如,高斯分布)。粗略的版本是: L (θ )= 对数(P(一个1个))A ,大号(θ)=日志⁡(P(一个1个))一个,L(\theta) = \log(P(a_1)) A, 其中一个一个A是奖励的优点,P(一个1个)P(一个1个)P(a_1)的特征在于,μμ\mu和σ2σ2\sigma^2附带像钟摆环境神经网络在这里:https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4 /main.py。 问题是我无法使用策略梯度找到有关2种以上连续动作的任何论文(不是通过从Q函数转移梯度而使用不同方法的参与者批评方法)。 您知道如何使用TRPO在LunarLander环境中进行2次连续动作吗? 以下方法对策略梯度损失函数是否正确? L (θ )= (对数P(一个)+ 日志P(一个2))* A大号(θ)=(日志⁡P(a)+log⁡P(a2))∗AL(\theta) = (\log P(a_) + \log P(a_2) )*A

3
如何使我的网络平等对待输入的旋转?
我正在尝试对自己的系统进行编程以运行神经网络。为了减少所需的节点数,建议使它平等地对待输入的旋转。 我的网络旨在通过查看网格中的每个正方形及其周围的正方形,并给出该正方形的输出,来学习和预测Conway的生活游戏。它的输入是9位字符串: 以上表示为010 001 111。 但是,此形状还有另外三个旋转,并且所有旋转均产生相同的输出: 我的网络拓扑是9个输入节点和1个输出节点,用于输入中的中心正方形的下一个状态。如何构造隐藏层,使它们将这些旋转的每一个都相同,从而将可能的输入数量减少到原来的四分之一? 编辑: 每旋转一圈也会产生相同的结果。合并这些将使我的输入减少1/8。使用滑翔机,我的目标是对所有这些输入进行完全相同的处理。这必须通过预处理完成,还是可以将其合并到网络中?

3
为什么在一门简短的AI入门课程中只教授搜索算法?
我了解到搜索的概念在AI中很重要。有一个问题,这个网站关于这个话题,但人们还可以直观地理解为什么。我有一门关于AI的入门课程,为期半个学期,所以当然没有足够的时间来涵盖AI的所有主题,但是我希望学习一些AI理论(我听说过“代理” ”),但实际上我基本上学到了几种搜索算法,例如: BFS 统一成本搜索 DFS 迭代深化搜索 双向搜寻 这些搜索算法通常归类为“盲目”(或“无知”),因为它们不考虑有关目标的剩余路径的任何信息。 或类似的算法: 启发式搜索 最佳优先搜索 一个 一个* IDA * 这类搜索通常属于“知情”搜索算法的类别,因为它们使用有关目标剩余路径的某些信息(例如“启发式”或“估计”)。 然后,我们还学习了“高级”搜索算法(专门应用于TSP问题)。这些算法是建设性的(例如,最近邻算法),局部搜索(例如,2-opt)算法或元启发式算法(例如,蚁群系统或模拟退火算法)。 我们还简要研究了适用于游戏的最小-最大算法和最小-最大的“改进”版本,即alpha-beta修剪。 学习完本课程后,我感到AI只是在“愚蠢地”或“更聪明地”进行搜索。 我的问题是: 为什么一位教授只在AI课程中教授搜索算法?优点/缺点是什么?下一个问题与此有关。 除了可以在入门课程中教授的AI“搜索”之外,还有什么?这个问题可能会导致主观答案,但实际上我是在试图了解AI的真正含义以及它真正涵盖的主题的背景下问的。显然,不幸的是,在阅读之后,看来这仍然是主观的。 是否有可以通过此类课程教授的AI理论?



3
是否有强烈的论据认为生存本能是创建AGI的前提?
这个问题源于许多“非正式”来源。电影如《2001年》,《太空漫游》和《前机械帝国》;像《目的地虚空》(弗兰克·赫伯特)这样的书,以及其他书籍都表明,一般智力想要生存,甚至了解其重要性。 生存可能有几种说法。最突出的是什么?
11 agi 


3
奇点是否值得认真对待?
奇异性一词通常在主流媒体中用于描述有远见的技术。它是由雷·库兹韦尔(Ray Kurzweil)在热门书籍《奇点即将到来:人类超越生物学》(2005)中引入的。 在他的书中,库兹韦尔展望了人类的潜在未来,其中包括纳米技术,计算机,基因改造和人工智能。他认为摩尔定律将使计算机呈指数级增长,从而产生超级智能。 是技术奇点的东西,是由AI开发商重视或者是这种理论只是一种流行的炒作负荷?

5
为什么我们需要人工智能常识?
让我们考虑这个例子: 今天是约翰的生日,让我们给他买风筝。 如果问到为什么要买风筝,我们人类很可能会说风筝是生日礼物。我们将这种推理称为常识。 为什么在人工智能代理中需要它?我认为这可能会引起很多问题,因为我们很多人为错误都是由这些模糊的假设引起的。 想象一下一个AI忽略做某些事情,因为它假定它已经由其他人(或另一个AI)使用常识完成了。 那不会将人为错误带入AI系统吗?

7
“智能”的最一般定义是什么?
当我们谈论人工智能,人类智能或任何其他形式的智能时,广义上的智能一词意味着什么?你会说什么聪明,什么不聪明?换句话说,我们如何以最通用的方式定义术语“ 智能 ”?

4
神经网络可以解决距离的概念吗?
想象一个游戏,它是一个黑屏,一个红色像素和一个蓝色像素。将这个游戏交给人类,他们将首先看到按下箭头键将移动红色像素。他们将尝试的下一件事是将红色像素移动到蓝色像素。 将此游戏交给AI,它将随机移动红色像素,直到一百万次尝试之后,它意外移动到蓝色像素上以获得奖励。如果AI具有红色和蓝色像素之间的距离的某种概念,则它可能会尝试最小化该距离。 如果不对距离的概念进行实际编程,那么如果我们拿游戏中的像素作为像素,我们是否可以计算出一个数字(例如“熵”),那么当像素相距较远而与彼此靠近时,该数字会更低吗?它应与其他像素配置一起使用。例如具有三个像素的游戏,其中一个像素好,一个像素坏。只是为了让神经网络更了解屏幕的外观?然后给NN一个目标,例如“尝试最小化董事会的熵并尝试获得奖励”。 在当前的研究中有什么与此类似的东西吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.