为什么在Q学习中选择字母Q?


17

为什么选择字母Q作为Q学习的名称?

选择大多数字母作为缩写,例如代表策略,代表价值。但是我不认为Q是任何单词的缩写。πv


1
在我的隐喻理解中,Q是一个函数,它为给定状态下的动作关联一个数量(称为奖励,成本或其他正在优化的东西)。
knk

1
@sycorax原始问题框起来意味着对Q学习的理解,并且为了提供解释,这将有助于添加上下文。如果不建立基础,OP将失去任何解释。
knk

隐喻Q =数量有帮助吗?我认为这是对特定国家
地区

Answers:


35

很抱歉让每个人失望,但是Q并不代表任何事情:)

沃特金斯(Watkins)在1989年的博士学位论文中提出了Q学习,请参阅第96页。该页面上的方程式中的Q在每一步都会以某种方式更新。Q是在给定状态下的预期动作收益,请参阅第46页上Q的定义。从经济或博弈论的意义上讲,收益是折现概率加权奖励,而不是像函数收益那样的计算机科学术语。

注意,他已经如何用P表示概率,用R表示奖励,所以他用Q表示回报。而已。选择字母Q没有更深层的意义。


3
没有更深层的含义,但这一个含义(Q与字母中的P和R匹配)并且代表某种含义。
Sextus Empiricus

2
@MartijnWeterings根本不是意思。这是对字母的纯粹句法选择,没有任何语义上的考虑。
David Richerby

当然,可能没有什么语义上的考虑(这可能会引起争议,因为拉丁字母或希腊字母之间的差异,字母在不同位置的字母或大写与小写之间可能会在语法和语义之间形成灰色区域)。我认为选择Q是“有意义的”,因为字母的形式(在某种程度上是任意的)确实在某种程度上表达了变量/参数的含义。含义与字母的选择有关。当选择u或v或i,j,k或x,y,z或时,将不是一个好的选择。α,β,γ
Sextus Empiricus

@MartijnWeterings,Q听起来也像是一个队列,这使有些相关的内涵太
Aksakal

@Aksakal,这可能一直在加强Q的使用。但是,我认为它并不强大。我对这个主题了解不多,但是在我快速浏览一下该论文时,似乎很可能会认为字母用于 i R i P ii V i P i等量。最终给了它一个“动作值”之类的“名字”,但该论文中使用的那些字母似乎更多地粘在了字母上。例如˚F ħ为函数X ý变量V Ü为价值函数和它的近似值。等QiRiPiiViPif g hx yV U
Sextus Empiricus

0

之所以这样称呼Q-Learning,是因为它使用Q值来形成其估计值。通常的学习规则是,,应该清楚为什么将其称为Q学习。Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

但是在我看来,实际的问题是为什么要这样称呼Q-Learning。尽管似乎没有令人满意的答案,但链接提到,现代强化学习的创始人之一安德鲁·巴托Andrew Barto)认为代表质量,之所以这么称呼是因为Q表征了拔臂的效果会如何好。是。Q


2
阅读该论文,并告诉我在预期收益的背景下“质量”是如何有意义的
阿克萨卡尔州

尽管我同意你的观点,但论文是在沃特金斯就许多事情咨询安迪之后写的。安迪的想法可能比您想象的要好。
Ameet Deshpande '18年

质量甚至不作为学习中的独特概念而存在。当然,您可以从英语使用通常意义上的单词。另一方面,期望收益在博弈论中得到了很好的定义,不需要通过附加模糊的概念(例如质量)来稀释期望收益。您没有在最大化质量,而是在适当的概率测度下最大化了折价奖励。如果您想更广泛一点,那么可以最大化该实用程序。
阿克萨卡尔州
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.