均匀分布下2-DNF的正确PAC学习


10

关于具有样本查询分布均匀适当 PAC学习2-DNF公式的查询复杂性的最新结果是什么?还是任何不平凡的约束呢?

因为我对学习理论一点都不熟悉,并且这个问题是由另一个领域提出的,所以答案可能很明显。我检查了Kearns和Vazirani的书,但他们似乎并未明确考虑此设置。

更新。尽管感兴趣的主要参数是查询复杂度,但是运行时间也很重要。如果可能,运行时间最好应与查询复杂度大致相同或最多为多项式。

更新。Balcan和Harvey的“学习亚模函数”论文的附录B(第18页的顶部)提到:“众所周知,2-DNF可以有效地进行PAC学习。” 但是,他们没有提及此结果是用于适当学习还是提供任何参考。


什么样的查询?
Timothy Sun

只是样品。另外,我想我应该明确指出问题是查询复杂度,而不是运行时间(已编辑)。
Grigory Yaroslavtsev 2012年

我已经回答了您的问题,假设示例查询只是随机示例(而不是成员资格查询)。
列夫·雷津

1
是的,查询只是均匀分布中的随机示例。
Grigory Yaroslavtsev 2012年

Answers:


14

我不知道您是否会认为以下微不足道的限制,但是我在这里。

首先,要清楚一点,以免引起混淆 C-DNF与 ķDNF(我经常这样做), C-DNF变量的公式 X1个Xñ 的形式 一世=1个ķ一世1个一世2一世C 哪里 1个一世ķ1个ĴC一世Ĵ{X1个XñX¯1个X¯ñ}

我们首先要问一个词中可以存在多少个不同的词 C-DNF。每个学期都有Cñ 变量,每个变量是否取反-使 2CñC不同的可能术语。在2-DNF实例中,每个术语都会出现或不出现,使得|H|=22CñC 可能的“目标”,其中 H 是假设空间。

想象一个算法需要 采样,然后尝试所有 |H|假设,直到找到一个可以完美地预测样本的样本。 奥卡姆的剃刀定理说,你只需要考虑一下=Ø1个ϵ|H|+1个δ 该算法的样本以查找有错误的目标 ϵ 很有可能 1个-δ

就我们而言 C=2lg|H|=Øñ2,这意味着您需要 ñ2 样本进行(正确)学习。

但是学习中的整个游戏并不是真正的样本复杂性(尽管这是游戏的一部分,尤其是在属性有效的学习中),而是尝试设计多项式时间算法。如果您不关心效率,那么ñ2 是PAC样品复杂度的最简单答案。

更新(鉴于已更改的问题)

因为您明确声明只关心样本的复杂性,所以我介绍了蛮力Occam算法,这可能是最简单的参数。但是,我的回答有点y。 2-DNF实际上可以在多项式时间内学习!这是来自Valiant的原始论文“ 可学习的理论”的结果。事实上C-DNF对任何人都是可学的 C=Ø1个

论据如下。您可以查看C-DNF与 ñC “元变量”,并尝试通过消除与示例不一致的元变量来学习析取。这样的解决方案可以轻松地转换回“适当的”解决方案,并且ØñC时间。附带说明一下,是否存在多项式时间算法C=ω1个

至于是否 ñ2样本复杂度也是一个下限,答案几乎是肯定的。 Ehrenfeucht等人的这篇论文。表明Occam绑定几乎是紧密的。


1
谢谢!这是不平凡的结果-我没有意识到指数运行时间会有所帮助。但是,对于我所想到的应用程序,实际上多项式时间是更可取的(更新了问题)。您描述的方法是否最能解决此问题?查询复杂度是否有下限(甚至对于无限制的运行时间)?
Grigory Yaroslavtsev 2012年

用引起问题的参考文献更新了问题。
Grigory Yaroslavtsev 2012年

1
根据您的最新问题更新了答案
Lev Reyzin

另外,在这种情况下,我认为指数运行时间没有帮助。但总的来说,似乎是这样。当您有指数时间时,学习(具有最佳的样本复杂度)通常很容易。
列夫·雷津

2
非常感谢!我将需要一些时间来检查引用,但是到目前为止,这似乎是一个完整的答案。
Grigory Yaroslavtsev
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.