Questions tagged «online-learning»

1
对于线性程序的近似解,最佳的时间/错误权衡是什么?
具体而言,请考虑用于解决两人零和游戏的LP,其中每个玩家有动作。假设回报矩阵每个条目的绝对值最大为1。为简单起见,我们不做任何稀疏假设。一ñnn一种AA 假设运行时可以近似该游戏的值。ŤTT 一种近似于此值的技术是乘法更新方法(在这种情况下称为无悔学习)。这给出了,其中隐藏了对数因子。〜ÔØ〜(n /吨----√)O~(n/T)\tilde O(\sqrt{n/T})Ø〜O~\tilde O 我不知道最著名的内点方法的错误情况到底是什么样子,但我猜该错误类似于。Ø (EXP(− T/ n3))O(exp⁡(−T/n3))O(\exp(-T/n^3)) 乘法更新方法给出的误差是的逆多项式。内点法给出的误差在成倍。因此,两者中最好的一个误差会逐渐减小一段时间,直到内部点赶上,之后误差突然从悬崖上掉下来。我的直觉是反对以这种方式进行最佳的时间/错误权衡。ŤŤTTŤTT 我的问题: 是否有一种用于近似线性规划的算法可以平滑时间/误差折衷曲线的角?也就是说,一种算法在可用时间参数的任何值上至少表现出两者中最好的,并且具有相对平滑的时间/误差折衷。一种结合内部点和乘法更新技术的智能方法,而不是两者中的更好方法,是获得这种算法的一种可能方法。 参考文献: 一般的乘法更新: http://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf 零和游戏的乘法更新: http://dx.doi.org/10.1016/0167-6377(95)00032-0 覆盖/打包LP的倍增更新: http://arxiv.org/PS_cache/arxiv/pdf/0801/0801.1987v1.pdf 原始内饰点纸: http://math.stanford.edu/~lekheng/courses/302/classics/karmarkar.pdf 从应用数学的角度看内点: Bertsekas的《非线性规划》,第4.1.1节。

1
沃伦·巴菲特问题
这是我在暑假期间一直在研究的在线学习/强盗问题的抽象。我以前从未见过这样的问题,而且看起来很有趣。如果您知道任何相关的工作,我将不胜感激。 问题问题 的设置是多臂匪。你有N支武器。我的每个手臂在通过玩游戏可获得的奖励上都有未知但固定的概率分布。具体来说,我们假设每条手臂我以概率p [i]支付$ 10奖励,并以prob奖励$ 0。1-p [i]。 在每一轮牛逼你选择一组S [T]的武器发挥。对于您选择的每个手臂,您需要预先支付1美元的费用。对于每个选定的手臂,​​您将从该手臂的(未知)奖励概率分布中收集奖励。所有奖励都记入您的银行帐户,所有费用均从该帐户中扣除。此外,在每次迭代的开始您都会获得$ 1的抵免额。 问题是要制定一种策略,在每次迭代中选择要使用的一组武器,以在足够长的时间范围内最大化利润(即奖励减去玩游戏的费用),但要受其必须保持非负帐户余额的约束。一直。 我没有具体说明是从先前的分配中选择还是由对手选择每人的奖励分配。两种选择都有意义。对手的表述对我来说更有吸引力,但可能很难取得进展。在此,对手选择分布的向量(D1,D2,..,DN)。在给定分配的情况下,最佳预算平衡策略是发挥所有预期收益大于1美元的武器。令P为该最优全知策略的每步利润。我希望我的在线政策能够最大程度地减少这种无知的政策带来的后悔(即,在一段时间内损失的利润)。

2
在线凸优化中的内部遗憾
Zinkevich的“在线凸优化”(http://www.cs.cmu.edu/~maz/publications/ICML03.pdf)将“后悔最小化”学习算法从线性设置推广到凸设置,并给出了良好的“外部遗憾” 。内部遗憾是否有类似的概括?(我不确定这到底意味着什么。)

1
粗相关均衡和相关均衡之间的分离
我正在寻找证明无政府状态价格的技术示例,这些技术具有将粗略相关均衡(无外部后悔动力学的极限集)上的无政府价格与相关均衡(下限上的无政府状态)价格分开的能力。无交换遗憾的动态集)。这种类型的天然分离物是否已知? 区分这两个类别的一个障碍是,证明无政府状态代价的最自然(也是最常见的)方法是仅观察到处于平衡状态时,没有玩家有任何动机偏离其在OPT上的表现,并以某种方式使用它将某种形式的社会福利与OPT的社会福利联系起来。不幸的是,任何关于无政府状态的价格在粗略相关均衡上的证明都很小,仅考虑每个参与者对单个替代行动(比如来自OPT的行动)的偏离也必然对相关均衡成立,因此无法提供分离。这是因为粗略相关均衡和相关均衡之间的唯一区别是相关均衡中的参与者同时考虑的能力多次偏离,取决于他从平衡分布得出的比赛概况信号。 这样的分离已知吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.