伪随机序列预测

免责声明：我是一名生物学家，对于如此粗略的措辞（也许）是一个基本问题，我们深表歉意。

我不确定是否应该在这里还是在DS / SC上问这个问题，但是CS是三个中最大的一个，所以去吧。（发布之后，我发现交叉验证可能是更合适的选择，但是可惜）。

想象有一个代理，他做出二进制决策。还有一个环境，对于代理的每个决定（“试验”），奖励或不奖励代理。奖励代理商决定的标准并不简单。通常，标准是随机的，但有一定的局限性，例如，环境对同一决策的奖励永远不会超过3倍，并且对奖励决策的选择也不会连续超过4次。

条件序列可能看起来像这样

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

但从来没有

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

因为奖励标准不能重复超过3次。

在这种情况下，制定理想的观察者应该采取的使报酬最大化的策略是很容易的。遵循以下原则

随机决定
如果您检测到该标准重复了3次-决定与上一个标准相反
如果您发现该标准交替出现了4次，请根据最后一个标准进行决策

现在，困难的部分。现在，每个试验的标准不仅取决于先前标准的历史，还取决于代理人的决策历史，例如，如果代理人在最近10个试验中有8个以上的候补，则奖励与上次做出的代理人相同的决定（如如果是为了阻止代理人交替进行），并且代理人在最近10次试验中的8次以上重复了相同的决定（即他有偏见），请制定与偏见相反的标准。准则的历史优先于决策的历史优先级是预先指定的，因此永远不会有歧义。

现在，决策（d）和标准（c）的顺序可能看起来像这样

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions

我看不出为代理创造最大化策略的任何简单方法。但是我确信必须有一个，并且某种聪明的机器学习算法应该能够识别它。

我的问题不是关于如何解决此问题（尽管如果您提出解决方案，我会很高兴），而是更多如何解决这些类型的问题？我在哪里可以读到它？有没有抽象的解决方案，或者只有模拟可以提供帮助？通常，作为生物学家，我该如何解决这类问题？

machine-learning probability-theory

— 谢尔盖·安托波斯基（Sergey Antopolskiy）
source

参见例如自回归时间序列分析。如果您更详细地了解输入数据，这将有所帮助。是生物学造成的吗？有针对性病问题的性病技术。循环人工神经网络（人工神经网络）也可以解决这个问题。也可以通过计算机科学聊天

— vzn 2015年

隐藏的马尔可夫模型可能是有用的工具。

— 拉斐尔

您可能需要在后续的负责人及其他变体念起来- onlineprediction.net/?n=Main.FollowTheLeader

— 动议提出，

我认为您指的是与ML中的人们所说的“ 强化学习”接近的东西。

— 卡夫

ps：如果一段时间后在这里找不到答案，则可能要尝试在“ 交叉验证”上发布。

— 卡夫

您可以使用强化学习来解决此问题。

Sutton和Barto就是一本经典的书：

第二版的草稿是免费的：https : //webdocs.cs.ualberta.ca/~sutton/book/the-book.html

为了使您的问题成为马尔可夫式，将每个状态定义为最后十个决策的向量。您的动作将为1或0。

— 胡安·莱尼
source