Questions tagged «reinforcement-learning»

一组动态策略,算法可通过该策略通过自适应地采取与不同奖励相关联的动作来在线学习环境的结构,以使所获得的奖励最大化。

5
非策略学习和基于策略学习之间有什么区别?
人工智能网站对非政策性学习和政策性学习的定义如下: “非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值,包括探索步骤。” 我想请您澄清一下,因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习,我不知道他们是否与所讨论的问题有任何关系。 如何独立于代理的行为来学习最佳策略?代理执行动作时不是学习策略吗?

3
了解折扣因素在强化学习中的作用
我正在自学强化学习,并试图理解折扣奖励的概念。因此,必须有奖励才能告诉系统哪些状态操作对是好的,哪些是坏的。但是我不明白的是为什么需要打折的奖励。为什么要尽快达到好状态而不是稍后就变得重要? 我确实知道这在某些特定情况下是相关的。例如,如果您正在使用强化学习在股票市场上进行交易,那么早一点赚钱而不是以后赚钱会更有利。这是因为现在有了这笔钱可以让您现在用那笔钱做事,这比以后再用那笔钱做事更可取。 但在大多数情况下,我看不出为什么打折有用。例如,假设您想让一个机器人学习如何在房间内导航以到达另一侧,如果该空间与障碍物碰撞会受到惩罚。如果没有折扣因素,那么它将学会完美地到达另一端,而不会遇到任何障碍。到达那里可能需要很长时间,但最终会到达那里。 但是,如果我们给予奖励折扣,那么即使机器人在沿途必须与物体碰撞,也会鼓励它迅速到达房间的另一侧。这显然不是理想的结果。当然,您希望机器人快速到达另一侧,但是如果这意味着它必须沿途与物体碰撞,则不要。 因此,我的直觉是,任何形式的折扣因子实际上都会导致次优解决方案。折扣因子的选择通常似乎是任意的-我看到的许多方法都只是将其设置为0.9。这对我来说似乎很幼稚,并且似乎在最佳解决方案和最快解决方案之间做出了任意取舍,而实际上,这一取舍非常重要。 请有人可以帮助我了解所有这一切吗?谢谢 :)

2
为什么没有像AlphaGo这样的国际象棋深度强化学习引擎?
长期以来,计算机一直能够使用“强力”技术下棋,搜索到一定深度然后评估位置。但是,AlphaGo计算机仅使用ANN评估位置(据我所知,它不进行任何深度搜索)。是否可以创建与AlphaGo玩Go相同的方式下棋的国际象棋引擎?为什么没有人这样做?该程序的性能是否会比今天的顶级国际象棋引擎(和国际象棋玩家)更好?


2
监督学习,无监督学习和强化学习:工作流基础
监督学习 1)人们根据输入和输出数据构建分类器 2)使用训练数据集对分类器进行训练 3)该分类器已通过测试数据集进行了测试 4)如果输出令人满意,则进行部署 在以下情况下使用:“我知道如何对这些数据进行分类,我只需要您(分类器)对其进行分类即可。” 方法要点:分类标签或产生实数 无监督学习 1)人们根据输入数据建立算法 2)使用一个测试数据集测试该算法(该算法在其中创建分类器) 3)如果分类器令人满意,则进行部署 在以下情况下使用:“我不知道如何对这些数据进行分类,您(算法)可以为我创建分类器吗?” 方法要点:分类标签或预测(PDF) 强化学习 1)人们根据输入数据建立算法 2)该算法呈现取决于输入数据的状态,在该状态下,用户通过算法采取的行动来奖励或惩罚该算法,这种状态会随着时间的流逝而持续 3)该算法从奖励/惩罚中学习并自我更新,这继续 4)始终处于生产状态,它需要学习真实数据以能够呈现状态下的动作 在以下情况下使用:“我不知道如何对这些数据进行分类,您可以对这些数据进行分类,如果正确的话我会给您奖励,如果不正确的话我会给您惩罚。” 这是那种这些做法的流量,我听到了很多关于他们做什么,但实际和示范性的信息是令人吃惊的小!


3
每日时间序列分析
我正在尝试进行时间序列分析,并且是该领域的新手。我每天都在统计2006-2009年的某个事件,因此我想为其拟合时间序列模型。这是我取得的进步: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 我得到的结果图是: 为了验证是否存在季节性和趋势数据,或者不是,我按照此提到的步骤后: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal 在Rob J Hyndman的博客中: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) 两种情况都表明没有季节性。 当我绘制该系列的ACF和PACF时,得到的是: 我的问题是: 这是处理每日时间序列数据的方式吗?该页面建议我应该同时查看每周和年度模式,但是这种方法对我来说并不明确。 一旦有了ACF和PACF图,我将不知道如何进行。 我可以简单地使用auto.arima函数吗? 适合<-arima(myts,order = c(p,d,q) *****更新了Auto.Arima结果****** 当我根据罗布海德门的评论的数据的频率改变为7 这里,auto.arima选择一个季节性ARIMA模型和输出: …

4
您将如何设计一个机器学习系统来玩《愤怒的小鸟》?
在玩了太多《愤怒的小鸟》之后,我开始观察自己的策略。事实证明,我开发了一种非常具体的方法来使每个级别获得3星。 这让我想知道开发一个能够玩《愤怒的小鸟》的机器学习系统所面临的挑战。与游戏互动并发射鸟类是微不足道的。但是我有一个问题是关于系统的“构建块”。 机器学习系统似乎可以使用简单的概念或对该问题的理解。这通常被编码为要素作为输入。因此,系统似乎需要具有理解一些高级概念以生成策略的能力。 这是真的?另外,开发这样的系统有哪些挑战或困难部分? 编辑#1: 这里有一些澄清。获得3星是一个难题,因为您必须最大化积分。这可以通过两种非排他性的方式来完成:1)最小化使用的鸟类数量(每只未使用的鸟类获得10,000分)。2)最大程度地破坏玻璃,木材和其他物体。每个被破坏的物体都会给你分数。一只鸟有可能摧毁价值超过10,000点的物体。 这是有关“高级概念”的更多解释。为了最大化上述点,您需要使用每只鸟的特殊能力。因此,这意味着根据地图的布局发射具有不同轨迹的不同鸟类。并且,在比赛时,我制定了一种策略,该策略以特定顺序摧毁某些鸟类。 似乎,如果不了解如何使用每只鸟来破坏特定区域,系统将无法学会获得3星。那么,您如何管理和编码类似的东西?您如何确保系统可以学习这些高级概念?

2
什么是循环强化学习
最近,我遇到了“循环强化学习”这个词。我了解什么是“递归神经网络”和什么是“强化学习”,但是找不到有关“递归强化学习”的更多信息。 有人可以向我解释什么是“循环强化学习”,以及“循环强化学习”和常规的“强化学习”(如Q学习算法)之间的区别。

1
何时选择SARSA与Q Learning
SARSA和Q Learning都是强化学习算法,它们以相似的方式工作。最显着的差异是SARSA处于策略状态,而Q Learning处于策略状态。更新规则如下: Q学习: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] 其中st,atst,ats_t,\,a_t和rtrtr_t是状态,在时间步ttt处的动作和奖励,而γγ\gamma是折扣因子。 它们的外观基本相同,只是在SARSA中我们采取实际行动,在Q Learning中我们采取最高奖励的行动。 在任何理论或实践环境中,一个都应该偏爱另一个吗?我可以看到,在Q Learning中获得最大收益可能会非常昂贵,甚至在连续的动作空间中甚至更多。但是还有别的吗?

4
为什么Q-Learning在测试过程中使用epsilon-greedy?
在DeepMind关于Atari视频游戏的Deep Q-Learning的论文(此处)中,他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时,它要么被选为q值最高的动作,要么是随机动作。两者之间的选择是随机的,并且基于epsilon的值,并且在训练过程中对epsilon进行退火,这样一开始,会采取许多随机动作(探索),但是随着训练的进行,会采取许多具有最大q值的动作(开发)。 然后,在测试过程中,他们也使用这种epsilon-greedy方法,但是epsilon的值非常低,因此对开发的偏向是对勘探的偏向,倾向于选择q值最高的行为而不是随机行为。但是,有时仍会选择随机动作(5%的时间)。 我的问题是:鉴于已经进行了培训,为什么在这一点上根本不需要进行任何探索?如果系统已经学会了最佳策略,那么为什么不总是将行动选择为q值最高的行动呢?难道不应该只在培训中进行探索,然后一旦学会了最佳策略,代理就可以反复选择最佳行动? 谢谢!

2
如何在强化学习中发挥奖励作用
在研究强化学习时,我遇到了许多形式的奖励函数:,R (s ,a ,s '),甚至是仅取决于当前状态的奖励函数。话虽如此,我意识到“制作”或“定义”奖励功能并非易事。R (s ,a )[R(s,一种)R(s,a)R ( s ,a ,s′)[R(s,一种,s′)R(s,a,s') 这是我的问题: 是否有有关奖励功能的规定? 奖励功能还有其他形式吗?例如,多项式形式可能取决于状态?



4
在哪种现实生活中,我们可以使用多臂强盗算法?
多臂强盗在您有选择的情况下工作得很好,并且您不确定哪个会最大化您的健康。您可以在某些现实生活中使用该算法。例如,学习可以是一个很好的领域: 如果一个孩子在学习木工,但对它不擅长,该算法将告诉他/她可能需要继续前进。如果他/她擅长,算法将告诉他/她继续学习该领域。 约会也是一个很好的领域: 你是一个男人,在追求女士方面投入了很多“精力”。但是,您的努力绝对是不受欢迎的。该算法应“轻微”(或强烈)推动您继续前进。 我们可以在多现实情况下使用多臂强盗算法吗? PS:如果问题过于广泛,请发表评论。如果达成共识,我将删除我的问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.