统计和大数据 reinforcement-learning

5

人工智能网站对非政策性学习和政策性学习的定义如下： “非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值，包括探索步骤。” 我想请您澄清一下，因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习，我不知道他们是否与所讨论的问题有任何关系。如何独立于代理的行为来学习最佳策略？代理执行动作时不是学习策略吗？

78 machine-learning reinforcement-learning artificial-intelligence

3

了解折扣因素在强化学习中的作用

我正在自学强化学习，并试图理解折扣奖励的概念。因此，必须有奖励才能告诉系统哪些状态操作对是好的，哪些是坏的。但是我不明白的是为什么需要打折的奖励。为什么要尽快达到好状态而不是稍后就变得重要？我确实知道这在某些特定情况下是相关的。例如，如果您正在使用强化学习在股票市场上进行交易，那么早一点赚钱而不是以后赚钱会更有利。这是因为现在有了这笔钱可以让您现在用那笔钱做事，这比以后再用那笔钱做事更可取。但在大多数情况下，我看不出为什么打折有用。例如，假设您想让一个机器人学习如何在房间内导航以到达另一侧，如果该空间与障碍物碰撞会受到惩罚。如果没有折扣因素，那么它将学会完美地到达另一端，而不会遇到任何障碍。到达那里可能需要很长时间，但最终会到达那里。但是，如果我们给予奖励折扣，那么即使机器人在沿途必须与物体碰撞，也会鼓励它迅速到达房间的另一侧。这显然不是理想的结果。当然，您希望机器人快速到达另一侧，但是如果这意味着它必须沿途与物体碰撞，则不要。因此，我的直觉是，任何形式的折扣因子实际上都会导致次优解决方案。折扣因子的选择通常似乎是任意的-我看到的许多方法都只是将其设置为0.9。这对我来说似乎很幼稚，并且似乎在最佳解决方案和最快解决方案之间做出了任意取舍，而实际上，这一取舍非常重要。请有人可以帮助我了解所有这一切吗？谢谢：）

43 machine-learning reinforcement-learning

2

为什么没有像AlphaGo这样的国际象棋深度强化学习引擎？

长期以来，计算机一直能够使用“强力”技术下棋，搜索到一定深度然后评估位置。但是，AlphaGo计算机仅使用ANN评估位置（据我所知，它不进行任何深度搜索）。是否可以创建与AlphaGo玩Go相同的方式下棋的国际象棋引擎？为什么没有人这样做？该程序的性能是否会比今天的顶级国际象棋引擎（和国际象棋玩家）更好？

32 neural-networks deep-learning reinforcement-learning games

9

强化学习中的贝尔曼方程式的推导

我在“ 强化学习中的简介 ”中看到了以下等式，但并没有完全遵循下面以蓝色突出显示的步骤。此步骤如何精确得出？

32 expected-value reinforcement-learning

2

监督学习，无监督学习和强化学习：工作流基础

监督学习 1）人们根据输入和输出数据构建分类器 2）使用训练数据集对分类器进行训练 3）该分类器已通过测试数据集进行了测试 4）如果输出令人满意，则进行部署在以下情况下使用：“我知道如何对这些数据进行分类，我只需要您（分类器）对其进行分类即可。” 方法要点：分类标签或产生实数无监督学习 1）人们根据输入数据建立算法 2）使用一个测试数据集测试该算法（该算法在其中创建分类器） 3）如果分类器令人满意，则进行部署在以下情况下使用：“我不知道如何对这些数据进行分类，您（算法）可以为我创建分类器吗？” 方法要点：分类标签或预测（PDF）强化学习 1）人们根据输入数据建立算法 2）该算法呈现取决于输入数据的状态，在该状态下，用户通过算法采取的行动来奖励或惩罚该算法，这种状态会随着时间的流逝而持续 3）该算法从奖励/惩罚中学习并自我更新，这继续 4）始终处于生产状态，它需要学习真实数据以能够呈现状态下的动作在以下情况下使用：“我不知道如何对这些数据进行分类，您可以对这些数据进行分类，如果正确的话我会给您奖励，如果不正确的话我会给您惩罚。” 这是那种这些做法的流量，我听到了很多关于他们做什么，但实际和示范性的信息是令人吃惊的小！

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

3

最好的强盗算法？

最著名的强盗算法是上置信界（UCB），它使此类算法普及。从那时起，我认为现在有了更好的算法。当前的最佳算法是什么（从经验性能或理论范围而言）？从某种意义上说，该算法是否最优？

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

3

每日时间序列分析

我正在尝试进行时间序列分析，并且是该领域的新手。我每天都在统计2006-2009年的某个事件，因此我想为其拟合时间序列模型。这是我取得的进步： timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 我得到的结果图是：为了验证是否存在季节性和趋势数据，或者不是，我按照此提到的步骤后： ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal 在Rob J Hyndman的博客中： library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) 两种情况都表明没有季节性。当我绘制该系列的ACF和PACF时，得到的是：我的问题是：这是处理每日时间序列数据的方式吗？该页面建议我应该同时查看每周和年度模式，但是这种方法对我来说并不明确。一旦有了ACF和PACF图，我将不知道如何进行。我可以简单地使用auto.arima函数吗？适合<-arima（myts，order = c（p，d，q） *****更新了Auto.Arima结果****** 当我根据罗布海德门的评论的数据的频率改变为7 这里，auto.arima选择一个季节性ARIMA模型和输出： …

24 r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

4

您将如何设计一个机器学习系统来玩《愤怒的小鸟》？

在玩了太多《愤怒的小鸟》之后，我开始观察自己的策略。事实证明，我开发了一种非常具体的方法来使每个级别获得3星。这让我想知道开发一个能够玩《愤怒的小鸟》的机器学习系统所面临的挑战。与游戏互动并发射鸟类是微不足道的。但是我有一个问题是关于系统的“构建块”。机器学习系统似乎可以使用简单的概念或对该问题的理解。这通常被编码为要素作为输入。因此，系统似乎需要具有理解一些高级概念以生成策略的能力。这是真的？另外，开发这样的系统有哪些挑战或困难部分？编辑＃1：这里有一些澄清。获得3星是一个难题，因为您必须最大化积分。这可以通过两种非排他性的方式来完成：1）最小化使用的鸟类数量（每只未使用的鸟类获得10,000分）。2）最大程度地破坏玻璃，木材和其他物体。每个被破坏的物体都会给你分数。一只鸟有可能摧毁价值超过10,000点的物体。这是有关“高级概念”的更多解释。为了最大化上述点，您需要使用每只鸟的特殊能力。因此，这意味着根据地图的布局发射具有不同轨迹的不同鸟类。并且，在比赛时，我制定了一种策略，该策略以特定顺序摧毁某些鸟类。似乎，如果不了解如何使用每只鸟来破坏特定区域，系统将无法学会获得3星。那么，您如何管理和编码类似的东西？您如何确保系统可以学习这些高级概念？

22 machine-learning reinforcement-learning

2

什么是循环强化学习

最近，我遇到了“循环强化学习”这个词。我了解什么是“递归神经网络”和什么是“强化学习”，但是找不到有关“递归强化学习”的更多信息。有人可以向我解释什么是“循环强化学习”，以及“循环强化学习”和常规的“强化学习”（如Q学习算法）之间的区别。

20 machine-learning reinforcement-learning

1

何时选择SARSA与Q Learning

SARSA和Q Learning都是强化学习算法，它们以相似的方式工作。最显着的差异是SARSA处于策略状态，而Q Learning处于策略状态。更新规则如下： Q学习： Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA： Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] 其中st,atst,ats_t,\,a_t和rtrtr_t是状态，在时间步ttt处的动作和奖励，而γγ\gamma是折扣因子。它们的外观基本相同，只是在SARSA中我们采取实际行动，在Q Learning中我们采取最高奖励的行动。在任何理论或实践环境中，一个都应该偏爱另一个吗？我可以看到，在Q Learning中获得最大收益可能会非常昂贵，甚至在连续的动作空间中甚至更多。但是还有别的吗？

19 reinforcement-learning

4

为什么Q-Learning在测试过程中使用epsilon-greedy？

在DeepMind关于Atari视频游戏的Deep Q-Learning的论文（此处）中，他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时，它要么被选为q值最高的动作，要么是随机动作。两者之间的选择是随机的，并且基于epsilon的值，并且在训练过程中对epsilon进行退火，这样一开始，会采取许多随机动作（探索），但是随着训练的进行，会采取许多具有最大q值的动作（开发）。然后，在测试过程中，他们也使用这种epsilon-greedy方法，但是epsilon的值非常低，因此对开发的偏向是对勘探的偏向，倾向于选择q值最高的行为而不是随机行为。但是，有时仍会选择随机动作（5％的时间）。我的问题是：鉴于已经进行了培训，为什么在这一点上根本不需要进行任何探索？如果系统已经学会了最佳策略，那么为什么不总是将行动选择为q值最高的行动呢？难道不应该只在培训中进行探索，然后一旦学会了最佳策略，代理就可以反复选择最佳行动？谢谢！

18 machine-learning reinforcement-learning q-learning deep-rl

2

如何在强化学习中发挥奖励作用

在研究强化学习时，我遇到了许多形式的奖励函数：，R （s ，a ，s '），甚至是仅取决于当前状态的奖励函数。话虽如此，我意识到“制作”或“定义”奖励功能并非易事。R （s ，a ）[R（s，一种）R(s,a)R （ s ，a ，s′）[R（s，一种，s′）R(s,a,s') 这是我的问题：是否有有关奖励功能的规定？奖励功能还有其他形式吗？例如，多项式形式可能取决于状态？

18 machine-learning reinforcement-learning

2

为什么在Q学习中选择字母Q？

为什么选择字母Q作为Q学习的名称？选择大多数字母作为缩写，例如代表策略，代表价值。但是我不认为Q是任何单词的缩写。ππ\pivvv

17 terminology reinforcement-learning history q-learning

1

监督学习是强化学习的子集吗？

监督学习的定义似乎是强化学习的子集，具有基于标记数据（与环境中的其他信息相反）的特定类型的奖励功能。这是正确的写照吗？

16 machine-learning terminology reinforcement-learning supervised-learning definition

4

在哪种现实生活中，我们可以使用多臂强盗算法？

多臂强盗在您有选择的情况下工作得很好，并且您不确定哪个会最大化您的健康。您可以在某些现实生活中使用该算法。例如，学习可以是一个很好的领域：如果一个孩子在学习木工，但对它不擅长，该算法将告诉他/她可能需要继续前进。如果他/她擅长，算法将告诉他/她继续学习该领域。约会也是一个很好的领域：你是一个男人，在追求女士方面投入了很多“精力”。但是，您的努力绝对是不受欢迎的。该算法应“轻微”（或强烈）推动您继续前进。我们可以在多现实情况下使用多臂强盗算法吗？ PS：如果问题过于广泛，请发表评论。如果达成共识，我将删除我的问题。

15 algorithms reinforcement-learning multiarmed-bandit

Questions tagged «reinforcement-learning»