如何计算/估计博弈论中的支付价值？

在纳什均衡等博弈论中，每个参与者的每个潜在策略的收益值究竟是如何产生的？在我在学术论文中看到的常见的2x2矩阵中，各种支付值似乎只是“出现”在矩阵中而没有解释它们是如何得出/计算/估计的，无论这些值是否具有（或需要）与他们相关的置信度等等。例如，对于给定的玩家/策略选择，是否有可能获得一系列支付值而不是单个数字？

game-theory

— 查理K3
source

虽然我要求更多说明你要引用哪些论文以获得更具体的答案，但总的来说，答案取决于论文/游戏的目的和提议的收益。

像塞尔滕1978年的连锁店悖论这样的论文使用的是相对幅度（而不是它们的绝对值）重要的收益，作为在工业组织和博弈论之间产生感知脱节的一种手段。同样，在经典的“囚徒困境”游戏中，“fink / tattle”和“mum / do not”的实际值并不像主导策略是让两个玩家都喋喋不休。这种回报可以是（0,0）或（-10，-10），只要这种回报使得主导策略变得t，，它就适用于游戏。

给出“精确”值而不是置信区间的一个较大原因是因为计算策略的方式。冷漠是定义混合策略的关键，如果给出确切的值，这是一个更简单的壮举。

话虽这么说，有各种不完全信息的游戏，也许对你的问题最重要的是，监控不完全的游戏完全按照你的建议进行 - 允许支付取决于一个（或更多）未观察到的一些随机变量球员们

如果这不是非常直接，或者没有完全回答你的问题，我很抱歉 - 如果我能改进答案，请告诉我。置信区间可能难以使用，因为它们依赖于统计结果而不是理论模型。然而，在某些类型的博弈论模型中，值的范围是相对常见的现象（例如，参见拍卖理论）。通常假设玩家知道不同收益的相对可能性，但即使在某些情况下也可以放松。

— AndrewC
source

谢谢你的澄清。我会对拍卖理论和不完善的监控游戏进行更多的研究。虽然在“囚徒困境”中你需要选择收益以使它们产生某种结果 - 即哄骗主导战略，这不是很奇怪吗？对于这个外行人来说，似乎正在捏造数字以使理论发挥作用。

— 查理K3 2017年