免责声明:我是一名生物学家,对于如此粗略的措辞(也许)是一个基本问题,我们深表歉意。
我不确定是否应该在这里还是在DS / SC上问这个问题,但是CS是三个中最大的一个,所以去吧。(发布之后,我发现交叉验证可能是更合适的选择,但是可惜)。
想象有一个代理,他做出二进制决策。还有一个环境,对于代理的每个决定(“试验”),奖励或不奖励代理。奖励代理商决定的标准并不简单。通常,标准是随机的,但有一定的局限性,例如,环境对同一决策的奖励永远不会超过3倍,并且对奖励决策的选择也不会连续超过4次。
条件序列可能看起来像这样
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
但从来没有
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
因为奖励标准不能重复超过3次。
在这种情况下,制定理想的观察者应该采取的使报酬最大化的策略是很容易的。遵循以下原则
- 随机决定
- 如果您检测到该标准重复了3次-决定与上一个标准相反
- 如果您发现该标准交替出现了4次,请根据最后一个标准进行决策
现在,困难的部分。现在,每个试验的标准不仅取决于先前标准的历史,还取决于代理人的决策历史,例如,如果代理人在最近10个试验中有8个以上的候补,则奖励与上次做出的代理人相同的决定(如如果是为了阻止代理人交替进行),并且代理人在最近10次试验中的8次以上重复了相同的决定(即他有偏见),请制定与偏见相反的标准。准则的历史优先于决策的历史优先级是预先指定的,因此永远不会有歧义。
现在,决策(d)和标准(c)的顺序可能看起来像这样
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
我看不出为代理创造最大化策略的任何简单方法。但是我确信必须有一个,并且某种聪明的机器学习算法应该能够识别它。
我的问题不是关于如何解决此问题(尽管如果您提出解决方案,我会很高兴),而是更多如何解决这些类型的问题?我在哪里可以读到它?有没有抽象的解决方案,或者只有模拟可以提供帮助?通常,作为生物学家,我该如何解决这类问题?