具体而言,请考虑用于解决两人零和游戏的LP,其中每个玩家有动作。假设回报矩阵每个条目的绝对值最大为1。为简单起见,我们不做任何稀疏假设。一
假设运行时可以近似该游戏的值。
一种近似于此值的技术是乘法更新方法(在这种情况下称为无悔学习)。这给出了,其中隐藏了对数因子。〜Ô
我不知道最著名的内点方法的错误情况到底是什么样子,但我猜该错误类似于。
乘法更新方法给出的误差是的逆多项式。内点法给出的误差在成倍。因此,两者中最好的一个误差会逐渐减小一段时间,直到内部点赶上,之后误差突然从悬崖上掉下来。我的直觉是反对以这种方式进行最佳的时间/错误权衡。Ť
我的问题:
是否有一种用于近似线性规划的算法可以平滑时间/误差折衷曲线的角?也就是说,一种算法在可用时间参数的任何值上至少表现出两者中最好的,并且具有相对平滑的时间/误差折衷。一种结合内部点和乘法更新技术的智能方法,而不是两者中的更好方法,是获得这种算法的一种可能方法。
参考文献:
一般的乘法更新:
http://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf
零和游戏的乘法更新:
http://dx.doi.org/10.1016/0167-6377(95)00032-0
覆盖/打包LP的倍增更新:
http://arxiv.org/PS_cache/arxiv/pdf/0801/0801.1987v1.pdf
原始内饰点纸:
http://math.stanford.edu/~lekheng/courses/302/classics/karmarkar.pdf
从应用数学的角度看内点:
Bertsekas的《非线性规划》,第4.1.1节。