Battigalli的真正含义是“玩家不能选择策略，他们只能选择动作。”？

Battigalli在Youtube上的这段视频中（从7:30到9:00），提到了一个简单的三足cent游戏的世界状况，用他自己的话说，

“ 对所有问题的描述，在传统理论中，必须包括表征安和鲍勃的策略。我不使用“安选择策略”这个词。原因很简单。选择的对象是行动，而不是行动玩家不能选择策略，只能选择动作。如果安可以选择策略，那么他们在玩另一种游戏。” $\ldots$ $(C, C^\prime)$

Pierpaolo Battigalli到底是什么意思？如果指定了玩家选择的动作，那么它将自动指定一个纯策略。通过这种方法，他似乎想区分具有承诺的游戏结构和不具有承诺的游戏，但是如何？

补充： 这是视频中使用的幻灯片，这是相应的论文。

game-theory dynamic-games

— 愿世界和平
source

这个想法恰恰是基于玩家对其他玩家和他们自己将在游戏的未来节点上进行游戏的方式的信念（玩家的信念），玩家不会选择动作s，而只能在每个游戏节点选择一次动作取决于导致该节点的历史记录）。

这种解释是让玩家选择全面的策略，等同于让玩家依靠计算机程序在自己的位置玩游戏。也就是说，他们可以通过此计算机程序来承诺在每个节点上播放给定的动作。

这种带有承诺设备的游戏本质上与实际玩家必须在其每个决策节点上反复选择一个动作的游戏有很大不同。当实际玩家在节点上玩游戏时，玩家必须对其他玩家和他们自己将在未来节点上玩游戏的方式形成信念，而这些信念可能取决于导致未来节点的历史。

例如，在Stackelberg游戏中，领导者可能认为，如果领导者扮演“低产量”，那么跟随者将是理性的（即，效用最大化），而如果领导者扮演“高”，则追随者将是非理性的（即，非效用最大化）。生产”。如果领导者扮演“高产量”领导者，也许领导者会期望跟随者会生气，并且，由于她的愤怒而蒙蔽，跟随者然后想要进行报复。

如果追随者可以通过策略做出承诺，那么游戏将完全不同。追随者也许会承诺在她生气之前不进行报复，她也无法满足她的报复愿望。但是这里的想法是，鉴于领导者在根节点选择的内容，实际的跟随者必须在游戏的后期选择一个动作。因此，跟随者通过其选择节点上的动作的行为规则（例如，效用最大值与非效用最大值）以及领导者对这些过程的信念也可能取决于导致该节点的历史。

这为游戏的许多新成果开辟了道路，而传统的博弈论并没有出现这些新成果。从概念的角度来看，它也将重点从解决方案概念转换为认知和行为假设（即，从经典博弈论转向认知博弈论）。与其确定一组合理的结果（例如，纳什均衡结果）并查看匹配这些结果的策略，不如确定玩家的行为和信念的合理属性（关于彼此的信念和行为），并得出结论。随着比赛的进行，这些关于结果的认知和行为假设。

现在，这只是为Battigalli的框架提供了一些直觉和直觉，并且并不能使框架的丰富性得到伸张（部分原因是我对他的工作不甚了解，而您所链接的视频除外）。如果您还没有这样做，我强烈建议您观看整个视频。我认为Battigalli在使他的框架易于访问方面做得很好。他还提供了有用且直观的示例，通过识别玩家信念和行为的简单条件来将他的认知方法与“经典”游戏理论联系起来，这些条件可以恢复经典的游戏解法，例如向后归纳法。

— 马丁·范德·林登
source

非常感谢您的回答，这非常有帮助。在我看来，您对Battigalli原理的解释，即选择行动，而不是策略，等同于他的动态信念系统，以条件信念而不是策略信念为条件的信念，而且，您似乎是在以他的结果为参考，他的动态信念制度和对理性的强烈信念暗示了向后归纳，这比奥曼对理性的普遍知识意味着向后归纳更具吸引力。

— 义大利世界和平

问题在于这些东西是十多年前由Battigalli及其合作者开发的。但是这次演讲是关于他在2013年的工作的。有什么新东西？

— 义大利世界和平

“如果您还没有这样做，我强烈建议您观看整个视频。” Battigalli所说的“强烈推荐”类似于“强烈相信”，对吗？：）

— 慈世平

@MettaWorldPeace：在观看视频之前，我不了解Battigalli的工作，因此我无法确定其中是否有新事物，或者他是否只是在介绍自己过去十年中开发的作品。

— 马丁·范德·林登