利用博弈论选择研究课题


19

这个最近的博弈论问题让我思考(当然是切线):是否有可能有效地优化个人策略,以选择研究问题以运用博弈论进行研究?

为了使问题正式化,我将作以下(非正式陈述的)假设:

  • 我同样“喜欢”我可以解决的任何特定问题(以避免“做自己喜欢的事情”的“软”(正确)答案)。
  • 对于我选择要解决的任何给定问题,我可能会成功,也可能不会成功。对于任何给定的问题,我都会估算出解决问题的能力(在投入时间之后)的概率。
  • 我的目标是在进行线下评估(申请工作,申请终身任职,申请研究金等)时,最大程度地提高我的回报,这取决于我解决了多少个问题以及这些问题的重要性或难易程度。我不清楚每个问题的确切收益,但我可以做出合理的估算。
  • 问题收益与问题难度之间存在松散的逆关系。我的目标的另一种说法是“博弈”差异(即寻找“低落的果实”)。
  • 这个整体问题的一个实例由一系列研究问题(可能是无限个)指定,我将其牢固地附加(不计任何计算成本;作为输入给出)对问题价值和问题难度的估计。我正在与对手(评估我的人)进行游戏;考虑到我解决给定问题的可能性,自然决定了在选择尝试后是否能够成功解决问题。

为了真正形式化正在发生的事情(避开无趣的或争论性的/讨论式的回应),我将把这个问题看作是一种形式广泛的游戏,其中包含不完整的信息以及无限的动作集


问题:我认为这类游戏无法有效计算。但是,是否有多项式时间算法可以使我的收益最大化?PTAS呢?

或者,是否存在针对此问题的更准确的博弈论模型?如果是这样,则存在相同的问题:我可以(大约)有效地最大化收益吗?如果是这样,怎么办?


4
将其表述为游戏的一个潜在问题是,您的对手(评估您的人)不一定与您竞争。确实,它们经常在您身边,只有在您未达到最低要求的情况下,才会愿意看到您失败。另一个可能的对手是所有其他研究人员,因为他们可能正在研究(可能是合作研究)相同的问题,因此正在尝试通过在工作之前获得结果来不利于您取得成功。
戴夫·克拉克

出于这个问题的目的(我想回避尽可能多的讨论,所以这是一个好问题...),让我们假设评估我的人确实承受着巨大的压力,他们选择一个并且只有一个最佳人选特殊的奖励,所以他们是对抗性的。另外,我们假设“任何真正原始的东西都将是:原始”,因此其他研究人员也不是一个严重的问题。我(当然!)个人对其他可能性感兴趣,但是我认为保持开放状态会带来错误的答案。:)
Daniel Apon

问题中可能值得采用不同模型的一个因素:对我选择处理的每个问题的成功/奖励结构的概率的评估。
Daniel Apon

2
[RŤ[R一世P一世ŤŤ

2
当然,在现实生活中,您回答的每个问题都会解锁更多的问题,这些问题您无法事先预测,但是比起您开始提出的问题集,它们可能更容易和/或更有价值,但是一旦您开始制定策略树像这样,找到关于游戏的有趣话题的机会急剧下降。
彼得·索尔

Answers:


4

我将尝试通过提出替代模型来尝试回答您的问题。我通常会问的问题比这里要回答的要多,因此,尽管我正在尽力,但我希望您能原谅我的回答不是最佳的。

我认为,表述对使博弈论有用的最佳问题的方法是假设一个更具竞争性的情况。即,需要在各种不同的参与者之间进行竞争。因此,我假设以下内容:

  • 有一个大的,但有限数量ň的其他研究人员,试图奉行同一套可用的研究问题,我称之为Q,您感兴趣的内容。
  • 每个研究问题均由以下特征定义:
    • 需要时间投入(或I)来了解您是否能够解决问题
    • 解决问题的成功概率,或S;一旦您达到了“关键时刻”并投入了足够的时间,大自然将随机决定您是否能够解决问题
    • 只要取得成功,对您的事业U(如实用程序)有益
  • 这些研究人员中的每一个都有以下数量的不同水平:
    • 可用于研究投资的时间,t
    • 人才在科研,[R
    • 人际交往能力和其他职业辅助素质l(很讨人喜欢),这将确定研究人员将其研究成功用于其职业发展的能力

现在,假设在任何问题上都不可能合作,那么考虑一下我所说的“动态迭代游戏”。这是一款反复播放的游戏,但是每次播放都会稍有变化。

M为游戏中的移动次数。游戏的最初表现形式可以表示为一个列表,其中包含每个演员(研究人员)和他们可以解决的每个问题,以及与每个演员和我上面列出的每个问题相关的所有值。(当然,我假设每个研究人员都知道有关所有问题以及所有其他研究人员的所有已知知识,这使它成为了一个完美的信息游戏。)

在游戏的每次迭代中,给定的演员都会选择一个研究问题进行研究。每个演员都可以随时切换问题,如果问题解决了,所有其他玩家对职业U的收益将降至0。如果一个玩家投入了足够的时间而无法解决问题,则该特定玩家将被禁止再次尝试解决该问题……尽管允许任何其他玩家继续解决该问题,并且另一个演员可能能够解决该问题。它成功。在完成所有M回合后,游戏结束。

研究人员选择问题的每一回合都会使玩家更加接近“真理时刻”,并有可能在自然允许的情况下解决问题。问题一旦解决,就可以基于l为研究人员的职业增加一定的利益。研究人才会增加成功的可能性,而空闲时间则会增加在给定回合中取得进步的能力。

我怀疑有没有多项式时间算法可以解决这个问题;我认为没有理由限制研究人员只能进行纯策略的纳什均衡,因此,如果您考虑“解决问题”的意思是“找到纳什”,那么问题将涉及混合策略的纳什均衡,因此最糟糕的是PPAD完全。问题的平衡。” (可以想象,如果您是周围最积极的研究人员,那么您可以继续进行计算,计算出自己喜欢的纳什均衡,然后向所有其他参与者发出信号……从而使您充满信心,没有人会改变策略而不偏离策略您发出的个人资料。)

无论如何,这是我发布过的最涉及的答案。我希望它至少有价值。请让我知道是否有人对此有任何回应,建议或改进建议。


1
菲利普,谢谢您的回答!这是对这个问题的一个很好的看法。我想知道:您能想到任何方法在问题中添加“部分信息”概念以使其保持PPAD完整性状态吗?可以模拟这样一个事实,即作为一名游戏玩家,我不一定知道我的所有对手都在做什么(即,我对他们正在考虑的问题以及他们认为自己具有的实力没有完全的了解。回答每个问题)?加上这个是否会影响纳什均衡的计算复杂性?(我不知道!)
Daniel Apon

1
@Daniel Apon:感谢您的评论!我认为改变条件并不困难,因此您根本不知道对手在做什么,或者他们的特点是什么。唯一需要注意的是,我认为当您处理不完善的信息博弈时,纳什均衡存在的保证就消失了。我对所谓的“ Stackelberg游戏”了解不多,但我认为它们可能与您提出的更改有关。我实际上想知道在不完美的信息游戏中最好的解决方案概念是什么...我会考虑一下。
菲利普·怀特2010年

我阅读了更多有关此的内容...我认为贝叶斯游戏在这里可能与之相关,因为它们用于处理信息不完善的游戏。这是我浏览过的Wikipedia页面的链接: en.wikipedia.org/wiki/Bayesian_game
Philip White
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.