感谢Aryeh提请我注意这个问题。
正如其他人提到的那样,(1)的答案是“是”,C中经验风险最小化的简单方法实现了Ø ((d/ ε)日志(1 / ε ))样本复杂度(请参阅Vapnik和Chervonenkis,1974; B。 Blumer,Ehrenfeucht,Haussler和Warmuth,1989年)。
至于(2),实际上已知存在空间C
,其中没有适当的学习算法可以实现比Ω ((d/ ε)日志(1 / ε ))样本复杂度更好的空间,因此适当的学习无法达到最佳O(d/ε)样本复杂度。据我所知,这一事实从未真正发表过,而是植根于Daniely和Shalev-Shwartz(COLT 2014)的一个相关论点(最初是为多类学习中一个不同但相关的问题制定的)。
考虑简单情况下d=1,并把该空间X为{1,2,...,1/ε},和C是单身fz(x):=I[x=z],z∈X:即,在每个分类C进行分类从恰好一个点X为1,其它为0。对于下界,以目标函数作为随机单fx∗,其中x∗∼Uniform(X),和P的边缘分布X,是均匀的上X∖{x∗}。现在的学生从来没有看到任何标记示例1,但必须选择一个点z来猜测被标记为1(重要的是,``全零“”功能是不是在C的,因此任何适当的学习者必须猜测一些z),并且,直到它已经看到的每一个点在X∖{x∗}它具有至少1/2猜测错误(即,它的的后验概率的机会fz具有z≠x∗为至少1/2)。优惠券收集器参数暗示它将需要Ω((1/ε)log(1/ε))采样以查看X∖{x∗}每个点。因此,这证明了所有适当学习者的Ω((1/ε)log(1/ε))下界。
对于一般的d>1,我们取X为{1,2,...,d/(4ε)},采取C作为分类IA用于集A⊂X大小的准确d,选择在从随机目标函数C,并采取P再次尽可能均匀上只是点的目标函数进行分类0(因此学习者永远不会看到标记为1的点1)。然后,对coupon-collector参数进行一般化,意味着我们需要Ω((d/ε)log(1/ε))样本才能至少看到|X|−2d从不同的点X,没有看到这许多不同的点的任何适当的学习者具有至少1/3得到大于的机会d/4其猜测的A的d在其选择的假设点错hA,意味着其错误率大于ε。因此,在这种情况下,没有合适的学习者的样本复杂度小于Ω((d/ε)log(1/ε)),这意味着没有合适的学习者获得了最佳的样本复杂度O(d/ε)。
请注意,结果非常特定于所构造的空间C确实存在空间C其中适当的学习者可以实现O(d/ε)最佳样品的复杂性,并且实际上甚至确切的完整表达O((d/ε)+(1/ε)log(1/δ))从( Hanneke,2016a)。在(Hanneke,2016b)中已经开发了一些通用ERM学习者的上下限,并根据空间C的性质对其进行了量化C,以及讨论一些更特殊的情况,在这些情况下,特定的适当学习者有时可以实现最佳的样本复杂度。
参考文献:
Vapnik和Chervonenkis(1974)。模式识别理论。1974年,莫斯科,瑙卡。
Blumer,Ehrenfeucht,Haussler和Warmuth(1989)。学习能力和Vapnik-Chervonenkis维度。计算机协会学报,36(4):929–965。
Daniely和Shalev-Shwartz(2014)。多类问题的最佳学习者。在第27届学习理论会议论文集中。
Hanneke(2016a)。PAC学习的最佳样本复杂度。机器学习研究杂志,第一卷。17(38),第1-15页。
Hanneke(2016b)。改进的误差界限,适用于多种学习算法。机器学习研究杂志,第一卷。17(135),第1-55页。