正确的PAC学习VC尺寸范围


11

众所周知,对于具有VC维d的概念类,获得O dCd标记为PAC学习C的示例。我不清楚PAC学习算法(使用这么多样本)是正确的还是不合适的?在Kearns和Vazirani以及Anthony和Biggs的教科书中,PAC学习算法似乎是不正确的(即,输出假设不在C中O(dεlog1ε)CC

  1. 有人可以澄清一下类似的上限是否也适用于正确的PAC学习设置吗?如果是这样,您能否给我参考,其中明确提到了该参考并且还包含独立的证据?

  2. 最近,Hanneke通过消除对因子改善了这一界限。有人可以澄清一下,对于正确的PAC学习设置,是否已知可移动日志1 / ε ?还是仍然有待解决的问题?log(1/ε)log(1/ε)


您指的是这份Hanneke论文?
研究生'18

Answers:


9

感谢Aryeh提请我注意这个问题。

正如其他人提到的那样,(1)的答案是C中经验风险最小化的简单方法实现了O((d/ε)log(1/ε))样本复杂度(请参阅Vapnik和Chervonenkis,1974; B。 Blumer,Ehrenfeucht,Haussler和Warmuth,1989年)。

至于(2),实际上已知存在空间C ,其中没有适当的学习算法可以实现比Ω((d/ε)log(1/ε))样本复杂度更好的空间,因此适当的学习无法达到最佳O(d/ε)样本复杂度。据我所知,这一事实从未真正发表过,而是植根于Daniely和Shalev-Shwartz(COLT 2014)的一个相关论点(最初是为多类学习中一个不同但相关的问题制定的)。

考虑简单情况下d=1,并把该空间X{1,2,...,1/ε},和C是单身fz(x):=I[x=z],zX:即,在每个分类C进行分类从恰好一个点X1,其它为0。对于下界,以目标函数作为随机单fx,其中xUniform(X),和P的边缘分布X,是均匀的上X{x}。现在的学生从来没有看到任何标记示例1,但必须选择一个点z猜测被标记为1(重要的是,``全零“”功能是不是C的,因此任何适当的学习者必须猜测一些z),并且,直到它已经看到的每一个点在X{x}它具有至少1/2猜测错误(即,它的的后验概率的机会fz具有zx为至少1/2)。优惠券收集器参数暗示它将需要Ω((1/ε)log(1/ε))采样以查看X{x}每个点。因此,这证明了所有适当学习者的Ω((1/ε)log(1/ε))下界。

对于一般的d>1,我们取X{1,2,...,d/(4ε)},采取C作为分类IA用于集AX大小的准确d,选择在从随机目标函数C,并采取P再次尽可能均匀上只是点的目标函数进行分类0(因此学习者永远不会看到标记为1的点1)。然后,对coupon-collector参数进行一般化,意味着我们需要Ω((d/ε)log(1/ε))样本才能至少看到|X|2d从不同的点X,没有看到这许多不同的点的任何适当的学习者具有至少1/3得到大于的机会d/4其猜测的Ad在其选择的假设点错hA,意味着其错误率大于ε。因此,在这种情况下,没有合适的学习者的样本复杂度小于Ω((d/ε)log(1/ε)),这意味着没有合适的学习者获得了最佳的样本复杂度O(d/ε)

请注意,结果非常特定于所构造的空间C确实存在空间C其中适当的学习者可以实现O(d/ε)最佳样品的复杂性,并且实际上甚至确切的完整表达O((d/ε)+(1/ε)log(1/δ))从( Hanneke,2016a)。在(Hanneke,2016b)中已经开发了一些通用ERM学习者的上下限,并根据空间C的性质对其进行了量化C,以及讨论一些更特殊的情况,在这些情况下,特定的适当学习者有时可以实现最佳的样本复杂度。

参考文献:

Vapnik和Chervonenkis(1974)。模式识别理论。1974年,莫斯科,瑙卡。

Blumer,Ehrenfeucht,Haussler和Warmuth(1989)。学习能力和Vapnik-Chervonenkis维度。计算机协会学报,36(4):929–965。

Daniely和Shalev-Shwartz(2014)。多类问题的最佳学习者。在第27届学习理论会议论文集中。

Hanneke(2016a)。PAC学习的最佳样本复杂度。机器学习研究杂志,第一卷。17(38),第1-15页。

Hanneke(2016b)。改进的误差界限,适用于多种学习算法。机器学习研究杂志,第一卷。17(135),第1-55页。


C

2
@ClementC。一般而言,尚不完全了解哪些课程具有适当的学习者可以达到的最佳学习率。参考论文“ Refined error bounds ...”给出了组合的特征,即哪些类允许所有ERM学习者获得最优费率(推论14)。相关数量是“星号”:最多的点数,一个点可以翻转任何一个点的标签而无需更改其他标签(定义9)。交叉路口封闭的班级有一个合适的最佳学习者:“封闭路段”算法(本文中的定理5,也被Darnstädt证明,2015年)。
S. Hanneke,

谢谢!
Clement C.19年

6

Ω(dϵlog1ϵ)ϵ[a,b][0,1]O(1/ϵ)[0,0]1ϵlog1ϵ1/

P. Auer,R。Ortner。用于交叉点封闭概念类的新PAC绑定。机器学习66(2-3):151-163(2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

关于正确的PAC的事情是,为了在抽象情况下获得积极的结果,人们无法指定一种超出ERM的算法,该算法表示“找到与标记样本一致的概念”。当您具有其他结构(例如间隔)时,可以检查两种不同的ERM算法,如上所述:最小与最大一致段。这些具有不同的样本复杂度!

不正确的PAC的强大功能在于您可以设计各种投票方案(Hanneke就是这样的结果)-这种额外的结构可以让您证明提高的投票率。(对于不可知论的PAC,这个故事更简单,因为ERM可以为您提供最佳的最坏情况下的速率,最高可达常数。)

O(d/ϵ)


Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))

是的,对于一点点保留,对于不正确的PAC,您需要使用特定的算法(Hanneke的算法),而不仅仅是任何旧的ERM。随时接受答案:)
Aryeh

NPRP

1
PAC可学习性的通常定义要求使用poly time算法。我的观点是:(i)放宽适当和不适当的样本复杂度;(ii)根据这一要求,我们无法证明适当与不适当之间的无条件分离(因为这实际上将证明NP不等于RP之类的东西)。(不过,我们可以证明特定的适当学习算法的样本复杂度的下限,据我所知,这是Aryeh的参考所做的。)
Clement C.18年

1
@ClementC。在您先前的评论中,您提到了在运行了不正确的PAC算法后,学习者获得了可能不正确的假设,然后学习者可以从概念类中找到最接近的正确假设(没有更多示例)。但是学习者如何在不知道样本分配的情况下如何做到这一点?难道不是根据未知分布来测量最接近的值吗?
匿名的

5

要添加到当前接受的答案中:

  1. O(dεlog1ε)
    NP=RPLH=C
  2. log(1/ε)

    log(1/ε)(ε,δ)

    (同一篇文章中的脚注1也与此相关)


[1] A. Blumer,A。Ehrenfeucht,D。Haussler和MK Warmuth。学习能力和Vapnik-Chervonenkis维度。ACM杂志,36(4):929-965,1989。

[2] S. Hanneke。PAC学习的最佳样本复杂度。J.马赫 学习。Res。17,1,1319-1333,2016。

[3] S. Arunachalam和R. de Wolf。学习算法的最佳量子样本复杂度。在2017年第32届计算复杂性会议(CCC)会议录中。


是否可以推测出Haussler等人的1包含图。这样的PAC学习者是最佳的吗?
Aryeh

@Aryeh我不确定。从我的发现中,沃姆斯(Warmuth)在2004年就这么猜想。
Clement C.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.