我在交叉验证的问答中问了这个问题,但似乎它与CS的关系远大于与Statistics的关系。
您能否给我一些机器学习算法的示例,这些算法从数据集的统计属性中学习,而不是从单个观测值本身中学习,即采用统计查询模型?
我在交叉验证的问答中问了这个问题,但似乎它与CS的关系远大于与Statistics的关系。
您能否给我一些机器学习算法的示例,这些算法从数据集的统计属性中学习,而不是从单个观测值本身中学习,即采用统计查询模型?
Answers:
几乎所有可以在PAC模型中使用的算法(奇偶学习算法除外)都可以在SQ模型中使用。参见例如Blum等人的本文。其中将几种流行的算法转换为它们的SQ等效项(实用隐私:SuLQ框架)。本文原则上涉及“隐私”,但是您可以忽略它-实际上,它只是使用SQ查询实现算法。
另一方面,不可知论学习在SQ模型中要困难得多:撇开计算问题(尽管这些很重要),不可知论学习所需的样本复杂度与精确学习所需的样本复杂度大致相同(如果您实际上可以使用)数据点。另一方面,不可知学习在SQ模型中变得更加困难-即使对于像单调析取之类的简单类,您通常也需要进行多项式查询。请参阅Feldman 撰写的这篇论文(统计查询学习的完整特征及其对可进化性的应用)或Gupta等最近发表的这篇论文。(私下释放连词和统计查询障碍)
制作SQ模型是为了分析噪声容忍的学习-即通过进行统计查询而起作用的算法将在分类噪声下起作用。正如Aaron所说,我们证明大多数PAC算法在SQ模型中具有等效功能。一个例外是高斯消去法,它用于学习奇偶校验(甚至可以巧妙地应用它)在分类噪声模型中学习log(n)loglog(n)大小奇偶性。我们还知道,统计查询无法学习奇偶校验,事实证明,像决策树这样的最有趣的类可以模拟奇偶校验功能。因此,在为许多有趣的类(例如决策树,DNF等)获取PAC学习算法的过程中,我们知道我们需要根本上在统计查询模型中不起作用的新学习算法。