监督学习,无监督学习和强化学习:工作流基础


30

监督学习

  • 1)人们根据输入输出数据构建分类器
  • 2)使用训练数据集对分类器进行训练
  • 3)该分类器已通过测试数据集进行了测试
  • 4)如果输出令人满意,则进行部署

在以下情况下使用:“我知道如何对这些数据进行分类,我只需要您(分类器)对其进行分类即可。”

方法要点:分类标签或产生实数

无监督学习

  • 1)人们根据输入数据建立算法
  • 2)使用一个测试数据集测试该算法(该算法在其中创建分类器)
  • 3)如果分类器令人满意,则进行部署

在以下情况下使用:“我不知道如何对这些数据进行分类,您(算法)可以为我创建分类器吗?”

方法要点:分类标签或预测(PDF)

强化学习

  • 1)人们根据输入数据建立算法
  • 2)该算法呈现取决于输入数据的状态,在该状态下,用户通过算法采取的行动来奖励或惩罚该算法,这种状态会随着时间的流逝而持续
  • 3)该算法从奖励/惩罚中学习并自我更新,这继续
  • 4)始终处于生产状态,它需要学习真实数据以能够呈现状态下的动作

在以下情况下使用:“我不知道如何对这些数据进行分类,您可以对这些数据进行分类,如果正确的话我会给您奖励,如果不正确的话我会给您惩罚。”

这是那种这些做法的流量,我听到了很多关于他们做什么,但实际示范性的信息是令人吃惊的小!


非常喜欢您提出问题的方式。我发现此答案很有帮助:stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh,

Answers:


3

这是对基本思想的很好的简要介绍!

强化学习

我认为您对强化学习的用例描述并不完全正确。术语分类是不合适的。更好的描述是:

我不知道在这种环境下如何行动,你能找到一个好的举止,同时我会给你反馈

换句话说,目标是更好地控制某些事物,而不是某些事物进行良好分类

输入值

  • 定义 的环境
    • 所有可能的状态
    • 各州可能采取的行动
  • 回报函数依赖于国家和/或作用

算法

  • 中介
    • 处于状态
    • 采取行动转移到另一州
    • 因该州的行为而获得奖励

输出量

  • 代理想要找到一个最大化奖励的最优策略

2

免责声明:我不是专家,我什至从未做过强化学习(到目前为止),因此欢迎您提供任何反馈...

这是一个答案,为您的列表添加了一些小小的数学注释,以及有关何时使用内容的一些不同想法。我希望枚举足够自我解释:

监督下

  1. 我们有数据d={X0ÿ0X1个ÿ1个Xñÿñ}
  2. G大号ÿ一世GX一世0一世<
  3. 大号一世ñ

我们可以举一些例子,但是我们不能给出从输入到输出的算法

设置分类和回归

无监督

  1. d={X0X1个Xñ}
  2. G
  3. 我们几乎没有措施说我们是否做过有用/有趣的事情

我们有一些数据,但是我们不知道从哪里开始寻找有用/有趣的东西

设置聚类,降维,查找隐藏因素,生成模型等。

加强

  1. 我们没有数据
  2. GX一世[RX一世
  3. 我们花了一些时间学习之后,通过奖励函数进行评估。

我们不知道如何去做,但是我们可以说它是对是错

这似乎对顺序决策任务特别有用。

参考文献:
Si,J.,Barto,A.,Powell,W.和Wunsch,D.(2004)强化学习及其与监督学习的关系,《学习手册和近似动态编程》,John Wiley&Sons,Inc.,美国新泽西州霍博肯。doi:10.1002 / 9780470544785.ch2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.