Answers:
很抱歉让每个人失望,但是Q并不代表任何事情:)
沃特金斯(Watkins)在1989年的博士学位论文中提出了Q学习,请参阅第96页。该页面上的方程式中的Q在每一步都会以某种方式更新。Q是在给定状态下的预期动作收益,请参阅第46页上Q的定义。从经济或博弈论的意义上讲,收益是折现概率加权奖励,而不是像函数收益那样的计算机科学术语。
注意,他已经如何用P表示概率,用R表示奖励,所以他用Q表示回报。而已。选择字母Q没有更深层的意义。
之所以这样称呼Q-Learning,是因为它使用Q值来形成其估计值。通常的学习规则是,,应该清楚为什么将其称为Q学习。
但是在我看来,实际的问题是为什么要这样称呼Q-Learning。尽管似乎没有令人满意的答案,但此链接提到,现代强化学习的创始人之一安德鲁·巴托(Andrew Barto)认为代表质量,之所以这么称呼是因为Q表征了拔臂的效果会如何好。是。