在哪种现实生活中,我们可以使用多臂强盗算法?


15

多臂强盗在您有选择的情况下工作得很好,并且您不确定哪个会最大化您的健康。您可以在某些现实生活中使用该算法。例如,学习可以是一个很好的领域:

如果一个孩子在学习木工,但对它不擅长,该算法将告诉他/她可能需要继续前进。如果他/她擅长,算法将告诉他/她继续学习该领域。

约会也是一个很好的领域:

你是一个男人,在追求女士方面投入了很多“精力”。但是,您的努力绝对是不受欢迎的。该算法应“轻微”(或强烈)推动您继续前进。

我们可以在多现实情况下使用多臂强盗算法吗?

PS:如果问题过于广泛,请发表评论。如果达成共识,我将删除我的问题。


3
鉴于(到目前为止)有3个被投票的答案,我认为这个范围太广而无法回答。
gung-恢复莫妮卡

@gung我有更多赞成票,但他们并没有反映在我的分数上。怎么来的?
安迪·K

5
这是因为该线程是社区Wiki(CW)@AndyK。当线程是CW时,人们不会从投票中获得声誉(或从投票中失去声誉)。不过,您会像往常一样获得徽章。诸如此类的问题,即征求材料清单以及没有一个单一的,明确的“正确”答案的问题,在SE网站上被认为是不受欢迎的。我们的折衷办法(我相信其他站点也这样做)是根据具体情况允许这样的问题,但要使其成为CW。
gung-恢复莫妮卡

足够公平@gung
Andy

1
大学录取。选择指标以选择捐赠器官的收件人。
EngrStudent-恢复莫妮卡

Answers:


8

当您玩原始的神奇宝贝游戏(红色或蓝色和黄色)并到达青瓷城时,Team火箭老虎机的赔率不同。如果您想优化快速获得Porygon的功能,可以使用Multi-Arm Bandit。

认真地说,人们谈论在机器学习中选择调整变量的问题。特别是如果您有很多变量,那么就会探讨探索与开发。就像本主题中的Spearmint甚至是新论文一样,它使用超级简单的算法来选择调整参数(并且其性能优于其他调整变量技术)


6

它们可用于生物医学治疗/研究设计环境。例如,我相信q学习算法用于顺序,多重分配,随机试验(SMART试验)中。松散地认为,治疗方案可以最佳地适应患者的进步。很显然,这对于单个患者可能是最好的,但在随机临床试验中也可能更有效。


谢谢@gung。我不知道该算法。我会读一读
Andy K


2

我在Quora上问了同样的问题

这是答案

  • 为组织的不同部门分配资金

  • 从有限时间和任意选择阈值的学生中选出表现最好的运动员

  • 在同时测试新功能的同时最大化网站收益(代替A / B测试)当您没有足够的数据来创建严格的统计模型时,可以在需要优化结果的任何时间使用它们。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.