伪随机序列预测


9

免责声明:我是一名生物学家,对于如此粗略的措辞(也许)是一个基本问题,我们深表歉意。

我不确定是否应该在这里还是在DS / SC上问这个问题,但是CS是三个中最大的一个,所以去吧。(发布之后,我发现交叉验证可能是更合适的选择,但是可惜)。

想象有一个代理,他做出二进制决策。还有一个环境,对于代理的每个决定(“试验”),奖励或不奖励代理。奖励代理商决定的标准并不简单。通常,标准是随机的,但有一定的局限性,例如,环境对同一决策的奖励永远不会超过3倍,并且对奖励决策的选择也不会连续超过4次。

条件序列可能看起来像这样

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

但从来没有

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

因为奖励标准不能重复超过3次。

在这种情况下,制定理想的观察者应该采取的使报酬最大化的策略是很容易的。遵循以下原则

  1. 随机决定
  2. 如果您检测到该标准重复了3次-决定与上一个标准相反
  3. 如果您发现该标准交替出现了4次,请根据最后一个标准进行决策

现在,困难的部分。现在,每个试验的标准不仅取决于先前标准的历史,还取决于代理人的决策历史,例如,如果代理人在最近10个试验中有8个以上的候补,则奖励与上次做出的代理人相同的决定(如如果是为了阻止代理人交替进行),并且代理人在最近10次试验中的8次以上重复了相同的决定(即他有偏见),请制定与偏见相反的标准。准则的历史优先于决策的历史优先级是预先指定的,因此永远不会有歧义。

现在,决策(d)和标准(c)的顺序可能看起来像这样

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

我看不出为代理创造最大化策略的任何简单方法。但是我确信必须有一个,并且某种聪明的机器学习算法应该能够识别它。

我的问题不是关于如何解决此问题(尽管如果您提出解决方案,我会很高兴),而是更多如何解决这些类型的问题?我在哪里可以读到它?有没有抽象的解决方案,或者只有模拟可以提供帮助?通常,作为生物学家,我该如何解决这类问题?


2
参见例如自回归时间序列分析。如果您更详细地了解输入数据,这将有所帮助。是生物学造成的吗?有针对性病问题的性病技术。循环人工神经网络(人工神经网络)也可以解决这个问题。也可以通过计算机科学聊天
vzn 2015年

2
隐藏的马尔可夫模型可能是有用的工具。
拉斐尔

1
您可能需要在后续的负责人及其他变体念起来- onlineprediction.net/?n=Main.FollowTheLeader
动议提出,

2
我认为您指的是与ML中的人们所说的“ 强化学习”接近的东西。
卡夫

1
ps:如果一段时间后在这里找不到答案,则可能要尝试在“ 交叉验证”上发布。
卡夫

Answers:


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.