Questions tagged «lg.learning»

机器学习理论:PAC学习,算法学习理论以及贝叶斯推理和图形模型的计算方面。

4
寻找最小正则表达式是否是NP完全问题?
我在考虑以下问题:我想找到一个正则表达式,该表达式与一组特定的字符串(例如有效的电子邮件地址)匹配,而与其他字符串(无效的电子邮件地址)不匹配。 假设正则表达式是指定义明确的有限状态机,我对确切的术语并不熟悉,但让我们就一类允许的表达式达成一致。 我不想给它手工制作表达式,而是给它一些积极的例子和消极的例子。 然后,它应该提供一个与+匹配的表达式,拒绝-表达式,并且在某种明确定义的意义上是最小的(自动机中的状态数?)。 我的问题是: 是否考虑过这个问题,如何以更具体的方式定义它并有效解决?我们可以在多项式时间内解决吗?NP是否完整,我们可以以某种方式近似吗?它适用于什么类型的表达式?我希望能有任何指向讨论该主题的教科书,文章或类似文章的指针。 这与Kolmogorov的复杂性有什么关系吗? 这与学习有任何关系吗?如果正则表达式与我的示例相符,并且由于其极小,我们能否在尚未看到的示例中说出它的泛化能力?哪种最小标准更适合于此?哪一个效率更高?这和机器学习有关系吗?同样,任何指针都会有所帮助... 抱歉给您带来麻烦的问题……向我指出正确的方向以解决这个问题。谢谢 !

1
无法有效计算但可学习的功能
我们知道(例如,参见[1]的定理1和定理3),粗略地说,在适当的条件下,可以由多项式神经网络表示可以由图灵机在多项式时间内有效计算的函数(“有效可计算”)。具有合理的大小,因此可以在任何输入分布下以多项式样本复杂度(“可学习的”)来学习。 此处的“可学习的”仅涉及样本复杂度,而与计算复杂度无关。 我想知道一个非常相关的问题:是否存在一个图灵机无法在多项式时间内有效计算的函数(“无法有效计算”),但同时可以通过多项式样本复杂度来学习(“可学习”)在任何输入分布下? [1] Roi Livni,Shai Shalev-Shwartz,Ohad Shamir,“ 关于训练神经网络的计算效率 ”,2014年

2
将真实的傅立叶光谱与假的光谱区分开来的复杂性是什么?
甲PHPHPH机给出预言访问随机布尔函数f:{0,1}n→{−1,1}f:{0,1}n→{−1,1}f:\{0,1\}^n \to \{ -1,1 \},以及两个傅立叶光谱ggg和hhh。 一个函数的傅立叶光谱fff被定义为F:{0,1}n→RF:{0,1}n→RF:\{0,1\}^n \to R: F(s)=∑x∈{0,1}n(−1)(s⋅xmod 2)f(x)F(s)=∑x∈{0,1}n(−1)(s⋅xmod 2)f(x)F(s)=\sum_{x\in\{0,1\}^n} (-1)^\left( s\cdot x \mod\ 2 \right) f(x) 一个的或是真正傅立叶光谱和另一种是仅有一个假的傅立叶光谱属于一个未知的随机布尔函数。ggghhhfff 不难证明机甚至不能近似于任何。PHPHPHF(s)F(s)F(s)sss 以高成功概率决定哪一个是真实的查询的查询复杂度是多少? 有趣的是我,因为如果这个问题是不是在,那么可以表明,一个Oracle相对于它存在在没有一个子集。PHPHPHBQPBQPBQPPHPHPH

2
近似矩阵的符号秩
具有+ 1,-1项的矩阵A的符号秩是矩阵B的最小秩(在实数上),矩阵B与A具有相同的符号模式(即,对于所有i ,,j)。这个概念对于交流复杂性和学习理论很重要。一种我Ĵ乙我Ĵ> 0AijBij>0A_{ij}B_{ij}>0我,Ĵi,ji,j 我的问题是:是否有任何已知的(次指数时间)算法将矩阵的符号秩近似为?o (n )o(n)o(n) (我知道就频谱范数而言,Forster在符号秩上的下限,但这通常不会产生比更好的逼近比。)Ω (n )Ω(n)\Omega(n)

3
其他指标的属性测试?
关于“属性测试”的文献很多,这是函数进行少量黑盒查询以区分两种情况的问题:f:{0,1}n→Rf:{0,1}n→Rf\colon\{0,1\}^n \to R fff是某些函数CC\mathcal{C} fFf是远离类每个函数。εε\varepsilonCC\mathcal{C} 函数的范围有时是布尔值:,但并非总是如此。[R[RR[R = { 0 ,1 }R={0,1个}R = \{0,1\} 在这里, far通常被认为是汉明距离:的点的分数,为了将放置在类中,需要改变。如果具有布尔值范围,则这是自然度量,但如果该范围是实值,则看起来不太自然。εε\varepsilonFFfFFfCC\mathcal{C}FFf 我的问题是:是否存在一堆属性测试文献来测试与某些指标相对于紧密度?CC\mathcal{C}

1
沃伦·巴菲特问题
这是我在暑假期间一直在研究的在线学习/强盗问题的抽象。我以前从未见过这样的问题,而且看起来很有趣。如果您知道任何相关的工作,我将不胜感激。 问题问题 的设置是多臂匪。你有N支武器。我的每个手臂在通过玩游戏可获得的奖励上都有未知但固定的概率分布。具体来说,我们假设每条手臂我以概率p [i]支付$ 10奖励,并以prob奖励$ 0。1-p [i]。 在每一轮牛逼你选择一组S [T]的武器发挥。对于您选择的每个手臂,您需要预先支付1美元的费用。对于每个选定的手臂,​​您将从该手臂的(未知)奖励概率分布中收集奖励。所有奖励都记入您的银行帐户,所有费用均从该帐户中扣除。此外,在每次迭代的开始您都会获得$ 1的抵免额。 问题是要制定一种策略,在每次迭代中选择要使用的一组武器,以在足够长的时间范围内最大化利润(即奖励减去玩游戏的费用),但要受其必须保持非负帐户余额的约束。一直。 我没有具体说明是从先前的分配中选择还是由对手选择每人的奖励分配。两种选择都有意义。对手的表述对我来说更有吸引力,但可能很难取得进展。在此,对手选择分布的向量(D1,D2,..,DN)。在给定分配的情况下,最佳预算平衡策略是发挥所有预期收益大于1美元的武器。令P为该最优全知策略的每步利润。我希望我的在线政策能够最大程度地减少这种无知的政策带来的后悔(即,在一段时间内损失的利润)。

2
在线凸优化中的内部遗憾
Zinkevich的“在线凸优化”(http://www.cs.cmu.edu/~maz/publications/ICML03.pdf)将“后悔最小化”学习算法从线性设置推广到凸设置,并给出了良好的“外部遗憾” 。内部遗憾是否有类似的概括?(我不确定这到底意味着什么。)

2
上可学习的内部状态
我试图了解可通过阈值门表达的功能的复杂性,这导致我得出。特别是,由于我不是该领域的专家,所以我对当前在T C 0内学习所感兴趣的东西很感兴趣。TC0TC0\mathsf{TC}^0TC0TC0\mathsf{TC}^0 到目前为止,我发现的是: 所有的 可以通过Linial-Mansour-Nisan在均匀分布下在准多项式时间内获知。AC0AC0\mathsf{AC}^0 他们的论文还指出,一个伪随机函数发生器防止存在学习,而这一点,加上的稍后结果NAOR-莱因戈尔德该坦承PRFGs,表明Ť Ç 0表示可学习的在PAC的限制(至少-感)TC0TC0\mathsf{TC}^0TC0TC0\mathsf{TC}^0 Jackson / Klivans / Servedio在2002年发表的一篇论文可以学习的片段(最多具有多对数多数门)。TC0TC0\mathsf{TC}^0 我已经完成了平常的Google学术研究,但是希望cstheory的集体智慧可能有一个更快的答案: 我对了解学习的复杂性(就哪些类将有效的学习者夹在中间)的理解是我所描述的最新技术?并且是否有一个很好的调查/参考可以勾勒出当前的景观状态?

3
精确学习与成员资格查询的组合表征
编辑:由于一周内未收到任何答复/评论,我想补充一点,我很高兴听到有关该问题的任何消息。我不在该地区工作,因此即使只是简单的观察,我可能也不知道。即使是诸如“我在该地区工作,但我还没有看到这样的特征”之类的评论也会有所帮助! 背景: 学习理论中有几种经过充分研究的学习模型(例如PAC学习,在线学习,带有成员资格/对等查询的精确学习)。 例如,在PAC学习中,概念类的样本复杂度就该类的VC维而言具有很好的组合特征。因此,如果我们想学习具有恒定准确度和置信度的类,可以使用样本来完成,其中是VC维。(请注意,我们谈论的是样本复杂度,而不是时间复杂度。)在准确性和置信度方面,还有一个更精细的表征。同样,在线学习的错误界限模型具有很好的组合特征。Θ(d)Θ(d)\Theta(d)ddd 题: 我想知道类似结果是否适用于成员资格查询的精确学习模型。该模型的定义如下:我们可以访问一个黑盒,该黑盒在输入给出。我们知道来自一些概念类。我们想用尽可能少的查询来确定。xxxf(x)f(x)f(x)fffCCCfff 是否存在概念类的组合参数,以表征在具有成员资格查询的精确学习模型中学习概念所需的查询数量?CCC 我知道的: 我发现的最好的这种表征是Servedio和Gortler在本文中使用的,他们将其归因于Bshouty,Cleve,Gavaldà,Kannan和Tamon。他们定义了一个称为的组合参数γCγC\gamma^C,其中是概念类,具有以下属性。(让Q C为在此模型中学习C所需的最佳查询数。)CCCQCQCQ_CCCC QC=Ω(1/γC)QC=Ω(log|C|)QC=O(log|C|/γC)QC=Ω(1/γC)QC=Ω(log⁡|C|)QC=O(log⁡|C|/γC)Q_C = \Omega(1/\gamma^C)\qquad Q_C = \Omega(\log |C|) \qquad Q_C = O(\log |C|/\gamma^C) 这种表征几乎是严格的。但是,上限和下限之间可能存在二次间隙。例如,如果,则下限为Ω (k ),但上限为O (k 2)。(我也认为此差距是可以实现的,即存在一个概念类,其下限均为Ω (k ),但上限为O (k 2)。)1/γC=log|C|=k1/γC=log⁡|C|=k1/\gamma^C = \log |C| = kΩ(k)Ω(k)\Omega(k)O(k2)O(k2)O(k^2)Ω(k)Ω(k)\Omega(k)O(k2)O(k2)O(k^2)

4
在波塞上学习单调谓词所需的最坏问题数量
考虑的有限偏序超过项,并且在一个未知的单调谓词(即,对于任何,,如果和然后)。我可以通过提供一个节点并确定成立来评估我的目标是使用最少的值来确定确切的节点的集合,从而使成立。(X,≤)(X,≤)(X, \leq)nnnPPPXXXxxxy∈Xy∈Xy \in XP(x)P(x)P(x)x≤yx≤yx \leq yP(y)P(y)P(y)PPPx∈Xx∈Xx \in XP(x)P(x)P(x)x∈Xx∈Xx \in XP(x)P(x)P(x)PPP尽可能。(我可以根据之前所有查询的答案选择查询,而无需提前计划所有查询。) 策略 over是一个函数,该函数根据我到目前为止所进行的查询以及它们的答案,告诉我要查询的节点以及通过遵循该策略来确保在任何谓词上告诉我,我将达到一种状态,在该状态下我知道所有节点上的值。运行时间的上的谓词是需要查询的数量就知道了值所有节点上。的最差运行时间是。最优策略使得。SSS(X,≤)(X,≤)(X, \leq)PPPPPPr(S,P)r(S,P)r(S, P)SSSPPPPPPSSSwr(S)=maxPr(S,P)wr(S)=maxPr(S,P)wr(S) = \max_P r(S, P)S′S′S'wr(S′)=minSwr(S)wr(S′)=minSwr(S)wr(S') = \min_S wr(S) 我的问题如下:作为输入的poset (X,≤)(X,≤)(X, \leq),如何确定最佳策略的最差运行时间? [很明显,对于一个空的poset,将需要nnn查询(我们需要询问每个单个节点),并且对于\ lceil \ log_2 n个\ rceil的总顺序⌈log2n⌉⌈log2⁡n⌉\lceil \log_2 n \rceil将是必需的(进行二进制搜索以查找边境)。一个更一般的结果是以下信息理论下限:谓词P的可能选择PPP数是(X,\ leq)的反链数N_X(因为单调谓词与A之间的一对一映射)反链解释为P的最大元素,因此,由于每个查询给我们提供了一点信息,因此我们至少需要\ lceil \ log_2 N_X \ rceilNXNXN_X(X,≤)(X,≤)(X, \leq)PPP⌈log2NX⌉⌈log2⁡NX⌉\lceil \log_2 N_X \rceil查询,并包含前两种情况。是束缚很紧吗,还是它们是一些结构使得学习可能比反链数量渐近地需要更多查询的姿势?]

2
量子PAC学习
背景 中的函数可以使用经典算法在准多项式时间内通过PAC学习,该经典算法需要随机选择O (2 l o g (n )O (d ))查询来学习深度为d的电路[1]。如果没有分解算法,那么这是最佳的[2]。当然,在量子计算机上,我们知道如何分解,因此该下限无济于事。此外,最佳经典算法使用函数的傅立叶频谱,因此大喊“量化我!”一ç0一种C0AC^0O (2升Ò 克(n )Ø (d))Ø(2升ØG(ñ)Ø(d))O(2^{log(n)^{O(d)}})2ño (1 )2ñØ(1个)2^{n^{o(1)}} [1] N. Linial,Y。Mansour和N. Nisan。[1993]“恒定深度电路,傅立叶变换和可学习性”,ACM杂志40(3):607-620。 [2]哈里托诺夫(M. Kharitonov)。[1993]“分布特定学习的密码学硬度”,ACM STOC'93会议录,第372-381页。 实际上,六年前,斯科特·亚伦森(Scott Aaronson)将的可学习性作为他的十个量子计算理论的半大挑战之一。一ç0一种C0AC^0 题 我的问题有三点: 1)在密码学假设的前提下,是否存在自然函数族的示例,量子计算机可以比传统计算机更快地学习? 2)特别是在的可学习性方面是否有任何进展?(或更具雄心的T C 0)一ç0一种C0AC^0ŤC0ŤC0TC^0 3)关于的可学习性,Aaronson评论说:“那么,在学习神经网络的接近最佳权重方面,量子计算机将比传统计算机具有巨大优势。” 有人可以为神经网络和T C 0电路的权重更新之间的关系提供参考吗?(除了阈门看起来像是乙状神经元的事实之外)ŤC0ŤC0TC^0ŤC0ŤC0TC^0(这个问题已经被问及回答了)

1
Goldreich-Levin / Kushilevitz-Mansour学习算法的最佳查询复杂度
Goldreich-Levin学习算法最著名的查询复杂度是什么? 从卢卡的Trevisan的博客讲义,引理3,指出它作为。就依赖而言,这是最著名的吗?对于引用可引用来源的信息,我将特别感激!O (1 / ϵ4n 日志n )Ø(1个/ϵ4ñ日志⁡ñ)O(1/\epsilon^4 n \log n)ññn 相关问题:Kushilevitz-Mansour学习算法最著名的查询复杂度是什么?

2
学习平面中的三角形
我给学生们分配了一个问题,即找到一个与R 2中的个点的集合一致的三角形,并用± 1标记。(A三角形Ť是一致的与标记的样品,如果Ť包含的所有正和无负点的;可以通过假设,样品坦言至少1一致的三角形)。米mmR2R2\mathbb{R}^2±1±1\pm1TTTTTT 他们(或我)可以做的最好的事情是在时间运行的算法,其中m是样本大小。谁能做得更好?O(m6)O(m6)O(m^6)mmm

3
统计查询模型算法?
我在交叉验证的问答中问了这个问题,但似乎它与CS的关系远大于与Statistics的关系。 您能否给我一些机器学习算法的示例,这些算法从数据集的统计属性中学习,而不是从单个观测值本身中学习,即采用统计查询模型?

1
参考请求:次模最小化和单调布尔函数
背景:在机器学习中,我们经常使用图形模型来表示高维概率密度函数。如果我们放弃密度积分(求和)为1的约束,我们将得到一个未归一化的图结构能量函数。 假设我们有这样的能量函数,,在曲线图上定义的G ^ = (V,ê)。有一个变量X为图中的每个顶点,并且有实值一元和成对的功能,θ 我(X 我):我∈ V和θ 我Ĵ(X 我,X Ĵ):我Ĵ ∈ ë,分别。那么,全能量就是EEEG=(V,E)G=(V,E)G = (\mathcal{V}, \mathcal{E})xxxθi(xi):i∈Vθi(xi):i∈V\theta_i(x_i) : i \in \mathcal{V}θij(xi,xj):ij∈Eθij(xi,xj):ij∈E\theta_{ij}(x_i, x_j) : ij \in \mathcal{E} E(x)=∑i∈Vθi(xi)+∑ij∈Eθij(xi,xj)E(x)=∑i∈Vθi(xi)+∑ij∈Eθij(xi,xj)E(\mathbf{x}) = \sum_{i \in \mathcal{V}} \theta_i(x_i) + \sum_{ij \in \mathcal{E}} \theta_{ij}(x_i, x_j) 如果所有的是二进制的,我们能想到的的X作为指示集合成员,并与术语谈论子模的只是一个小的滥用。在这种情况下,能量的功能是当且仅当子模θ 我Ĵ(0 ,0 )+ θ 我Ĵ(1 ,1 )≤ θ 我Ĵ(0 ,1 )+ θ …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.