Questions tagged «machine-learning»

有关机器学习的理论问题,尤其是计算学习理论,包括算法学习理论,PAC学习和贝叶斯推理

5
TCS对“为什么神经网络这么好工作?”这个问题想要什么样的答案?
我的博士学位 是纯数学领域的,我承认我对理论CS不太了解。但是,我开始探索自己职业生涯中的非学术选择,并在向自己介绍机器学习时,偶然发现诸如“没人知道为什么神经网络运作良好”这样的陈述,我发现这很有趣。 本质上,我的问题是研究人员想要什么样的答案?这是我对该主题进行简短搜索时发现的: 实现简单神经网络的算法非常简单。 从统计学上来说,SGD的过程在数学上是很容易理解的。 通用逼近定理是有力的和证明的。 最近有一篇不错的论文https://arxiv.org/abs/1608.08225,该论文基本上给出了这样的答案,即通用逼近远远超出了我们实际在实践中所需的值,因为我们可以对要使用该函数建模的函数做出强有力的简化假设。神经网络。 在上述论文中,他们指出(解释)“ GOFAI算法在分析上已被完全理解,但是许多ANN算法仅在试探性上被理解”。已实现算法的收敛定理是我们似乎对神经网络确实具有解析理解的一个示例,因此,在这种普遍性水平上的陈述并不能告诉我太多关于已知与未知或被认为是“答案”的信息。 ”。 作者确实在结论中暗示,诸如逼近给定多项式所需的神经网络大小的有效界限之类的问题是开放且有趣的。在说我们“理解”神经网络时,还需要回答数学上特定的分析问题的其他例子吗?是否有可能用更纯粹的数学语言回答的问题? (由于本文是使用物理学,所以我专门考虑了表示理论中的方法-并且,自私地,因为这是我的研究领域。但是,我也可以想象诸如组合/图论,代数几何等领域以及提供可行工具的拓扑。)

10
出色的算法,机器学习和线性代数
我教授一门高级算法课程,并且希望包括一些与机器学习相关的主题,这将使我的学生感兴趣。结果,我想听听人们对机器学习中当前最有趣/最伟大的算法结果的看法。潜在的棘手约束是,学生将不会对线性代数或机器学习中的其他主要主题有任何特定的先前知识。 这的确使他们兴奋,并使他们知道ML对于算法专家来说是一个潜在的令人兴奋的研究领域。 编辑:这是最后一年的本科课程(因为我们主要在英国没有研究生课程)。他们将事先至少完成一门基本算法课程,并且大概在其中做得很好,从而选择了高级后续课程。当前的高级课程提纲中包含诸如完美哈希,Bloom过滤器,van Emde Boas树,线性程序等的主题。我不打算在ML上专门花费一堂以上的讲座,但如果某门课程与一门算法课程和一门ML确实相关,那么当然也可以包括在内。

1
无法有效计算但可学习的功能
我们知道(例如,参见[1]的定理1和定理3),粗略地说,在适当的条件下,可以由多项式神经网络表示可以由图灵机在多项式时间内有效计算的函数(“有效可计算”)。具有合理的大小,因此可以在任何输入分布下以多项式样本复杂度(“可学习的”)来学习。 此处的“可学习的”仅涉及样本复杂度,而与计算复杂度无关。 我想知道一个非常相关的问题:是否存在一个图灵机无法在多项式时间内有效计算的函数(“无法有效计算”),但同时可以通过多项式样本复杂度来学习(“可学习”)在任何输入分布下? [1] Roi Livni,Shai Shalev-Shwartz,Ohad Shamir,“ 关于训练神经网络的计算效率 ”,2014年

2
如果机器学习技术不断改进,那么算法学在未来的作用是什么?
让我们看一下距现在约30年的未来。让我们保持乐观,并假设与机器学习相关的领域正在像过去十年中一样迅速发展。那会很好,但是在这样的未来,传统算法将扮演什么角色呢? 在这里,通过“传统算法”,我指的是我们在TCS中遵循的通常过程:形式化定义明确的计算问题,设计用于解决该问题的算法,并证明形式上的性能保证。 现在,将来我们也必须在哪些应用领域中使用传统算法设计和分析,并且机器学习的任何进步都将使传统算法几乎不再相关是极不可能的? 起初,这似乎是一个愚蠢的问题:当然,将来我们还需要能够进行排序,搜索,索引等工作!当然,我们将需要能够高效地进行傅立叶变换,乘以大矩阵,找到最短路径,解决线性优化问题! 但话又说回来,一旦您开始更深入地研究我们传统上使用设计算法的应用程序,则完全不清楚传统算法的设计和分析是否可以正确解决此类问题:在与搜索相关的应用程序中,通常,我们感兴趣的是找到在某种模糊不清的意义上(例如语义相似性)与人类紧密匹配的事物,而不是在数学意义上(例如最小编辑距离)最优的事物。在与路线计划有关的应用中,通常我们会对基于示例(例如,其他人更喜欢)的路线找到感兴趣的路线感兴趣,而不是在某些数学意义上(例如,最短距离或最便宜的价格)找到最佳路线。而且,一旦您在图片中出现一些模糊不清的人为成分,可能是我们最好尝试教导计算机根据示例生成好的答案,而不是让TCS研究人员提出来我们可以通过传统的算法设计和分析来解决形式化的计算问题。 那么,在哪些应用领域(最好是实际的和直接的工业应用)中,绝对清楚的是,我们过去在算法学领域所做的工作也将是正确的方法(也是唯一可能的方法),从而在未来? 在机器学习技术中用作子例程的算法看起来很像是面向未来的候选方法,但这在很大程度上取决于我们使用的特定机器学习技术,正如我们在过去十年左右的时间里看到的那样,这种情况可能会迅速改变。 。

1
自然,不可测试的图形属性
在图属性测试中,一种算法查询目标图是否存在边缘,并且需要确定目标是否具有某个属性或是否具有 epsilon-远不具有该属性。(可以要求算法成功处理1面或2面错误。)如果没有\ epsilon \ binom {n} {2}边可以添加/减去来制作图形,则图形远不具有属性它具有属性。ϵϵ\epsilonϵϵ\epsilonϵ(n2)ϵ(n2)\epsilon \binom{n}{2} 如果可以按上述指定的方式在一个亚线性查询中测试一个属性,或者更好的是在一个独立于n的查询中nnn(但不能ϵϵ\epsilon),可以说该属性是可测试的。关于什么是属性的概念也可以形式化,但是应该清楚。 有许多结果说明了哪些特性是可测试的,其中包括许多自然可测试特性的示例。但是,我不知道许多已知的不可测试的自然属性(例如在一定数量的查询中)-我熟悉的一个自然属性是测试给定图的同构性。 因此,我的问题是:已知哪些自然图属性不可测试?

1
沃伦·巴菲特问题
这是我在暑假期间一直在研究的在线学习/强盗问题的抽象。我以前从未见过这样的问题,而且看起来很有趣。如果您知道任何相关的工作,我将不胜感激。 问题问题 的设置是多臂匪。你有N支武器。我的每个手臂在通过玩游戏可获得的奖励上都有未知但固定的概率分布。具体来说,我们假设每条手臂我以概率p [i]支付$ 10奖励,并以prob奖励$ 0。1-p [i]。 在每一轮牛逼你选择一组S [T]的武器发挥。对于您选择的每个手臂,您需要预先支付1美元的费用。对于每个选定的手臂,​​您将从该手臂的(未知)奖励概率分布中收集奖励。所有奖励都记入您的银行帐户,所有费用均从该帐户中扣除。此外,在每次迭代的开始您都会获得$ 1的抵免额。 问题是要制定一种策略,在每次迭代中选择要使用的一组武器,以在足够长的时间范围内最大化利润(即奖励减去玩游戏的费用),但要受其必须保持非负帐户余额的约束。一直。 我没有具体说明是从先前的分配中选择还是由对手选择每人的奖励分配。两种选择都有意义。对手的表述对我来说更有吸引力,但可能很难取得进展。在此,对手选择分布的向量(D1,D2,..,DN)。在给定分配的情况下,最佳预算平衡策略是发挥所有预期收益大于1美元的武器。令P为该最优全知策略的每步利润。我希望我的在线政策能够最大程度地减少这种无知的政策带来的后悔(即,在一段时间内损失的利润)。

5
在人工智能研究中,“先进的数学”在何种程度上需要/有用?
我目前正在学习数学。但是,我不希望将来成为专业的数学家。我正在考虑将我的数学知识应用于人工智能研究。但是,我不确定我应该学习多少门数学课程。(以及我应该学习哪些CS理论课程。) 从Quora,我了解到线性代数,统计和凸优化这两个主题与机器学习最相关(请参阅此问题)。有人提到,学习线性代数,概率/需要统计,微积分,基本算法和逻辑来研究人工智能(见这个问题)。 在我们大学的数学学士学位的前1.5年中,我可以了解所有这些主题。 不过,我想知道,是否有一些甚至是研究生水平的数学学科都对学习人工智能有用或什至是需要的。ODE,PDE,拓扑,测度理论,线性分析,傅里叶分析和流形分析又如何呢? 这表明,一些比较先进的数学是人工智能的研究有用的一本书是模式论真实世界的信号的随机分析由大卫·芒福德和Agnes Desolneux(见本页)。它包括有关马尔可夫链,分段高斯模型,吉布斯场,流形,李群和李代数及其在模式论中的应用的章节。本书对人工智能研究有多大作用?

5
是否可以测试可计算数字是有理数还是整数?
是否可以通过算法测试可计算数是有理数还是整数?换句话说,将有可能为图书馆实现可计算数提供的功能isInteger还是isRational? 我猜测这是不可能的,并且这在某种程度上与以下事实有关:无法测试两个数字是否相等,但是我看不出如何证明这一点。 编辑:可计算的数字xxx由函数给出,该函数fx(ϵ)fx(ϵ)f_x(\epsilon)可以返回精度为ϵ的的有理近似值:| x − f x(ϵ )| ≤ ε,对于任何ε > 0。鉴于这样的功能,就是可以测试,如果X ∈ Q或X ∈ ž?xxxϵϵ\epsilon|x−fx(ϵ)|≤ϵ|x−fx(ϵ)|≤ϵ|x - f_x(\epsilon)| \leq \epsilonϵ>0ϵ>0\epsilon > 0x∈Qx∈Qx \in \mathrm{Q}x∈Zx∈Zx \in \mathrm{Z}
18 computability  computing-over-reals  lambda-calculus  graph-theory  co.combinatorics  cc.complexity-theory  reference-request  graph-theory  proofs  np-complete  cc.complexity-theory  machine-learning  boolean-functions  combinatory-logic  boolean-formulas  reference-request  approximation-algorithms  optimization  cc.complexity-theory  co.combinatorics  permutations  cc.complexity-theory  cc.complexity-theory  ai.artificial-intel  p-vs-np  relativization  co.combinatorics  permutations  ds.algorithms  algebra  automata-theory  dfa  lo.logic  temporal-logic  linear-temporal-logic  circuit-complexity  lower-bounds  permanent  arithmetic-circuits  determinant  dc.parallel-comp  asymptotics  ds.algorithms  graph-theory  planar-graphs  physics  max-flow  max-flow-min-cut  fl.formal-languages  automata-theory  finite-model-theory  dfa  language-design  soft-question  machine-learning  linear-algebra  db.databases  arithmetic-circuits  ds.algorithms  machine-learning  ds.data-structures  tree  soft-question  security  project-topic  approximation-algorithms  linear-programming  primal-dual  reference-request  graph-theory  graph-algorithms  cr.crypto-security  quantum-computing  gr.group-theory  graph-theory  time-complexity  lower-bounds  matrices  sorting  asymptotics  approximation-algorithms  linear-algebra  matrices  max-cut  graph-theory  graph-algorithms  time-complexity  circuit-complexity  regular-language  graph-algorithms  approximation-algorithms  set-cover  clique  graph-theory  graph-algorithms  approximation-algorithms  clustering  partition-problem  time-complexity  turing-machines  term-rewriting-systems  cc.complexity-theory  time-complexity  nondeterminism 

1
在我们知道BPP在于P / poly之后,BPP与P是否是一个真正的问题?
我们知道(大约40年,感谢Adleman,Bennet和Gill)包容性BPP ⊆ ñ ñ⊆⊆\subseteq P / poly,甚至更强大的BPP / poly P / poly仍然成立。“ / poly”表示我们工作不均匀(每个输入长度单独的电路),而没有此“ / poly”的P表示我们对于所有可能的输入长度拥有一台图灵机,甚至比例如 =到下一个“大爆炸”的秒数。⊆⊆\subseteq nnnnnnnnn 问题1:在知道BPP P / poly 后,BPP = P的证明(或反证明)对我们的知识有何贡献? ⊆⊆\subseteq 在“新”下,我指的是任何真正令人惊讶的后果,例如其他复杂性类别的崩溃/分离。将此与NP P / poly 的证明/取消证明所带来的后果进行比较。 ⊆⊆\subseteq [增加了2017年8月10日]:有一个人惊人的结果BPP P将是,如图Impagliazzo和Wigderson, 所有的问题(!) é = DTIME将有大小为。感谢Ryan召回此结果。⊈⊈\not\subseteq [2O(n)][2O(n)][2^{O(n)}]2o(n)2o(n)2^{o(n)} 问题2:为什么我们不能 沿着与BPP / poly P / poly 的证明相似的方式证明 BPP = P? …

3
精确学习与成员资格查询的组合表征
编辑:由于一周内未收到任何答复/评论,我想补充一点,我很高兴听到有关该问题的任何消息。我不在该地区工作,因此即使只是简单的观察,我可能也不知道。即使是诸如“我在该地区工作,但我还没有看到这样的特征”之类的评论也会有所帮助! 背景: 学习理论中有几种经过充分研究的学习模型(例如PAC学习,在线学习,带有成员资格/对等查询的精确学习)。 例如,在PAC学习中,概念类的样本复杂度就该类的VC维而言具有很好的组合特征。因此,如果我们想学习具有恒定准确度和置信度的类,可以使用样本来完成,其中是VC维。(请注意,我们谈论的是样本复杂度,而不是时间复杂度。)在准确性和置信度方面,还有一个更精细的表征。同样,在线学习的错误界限模型具有很好的组合特征。Θ(d)Θ(d)\Theta(d)ddd 题: 我想知道类似结果是否适用于成员资格查询的精确学习模型。该模型的定义如下:我们可以访问一个黑盒,该黑盒在输入给出。我们知道来自一些概念类。我们想用尽可能少的查询来确定。xxxf(x)f(x)f(x)fffCCCfff 是否存在概念类的组合参数,以表征在具有成员资格查询的精确学习模型中学习概念所需的查询数量?CCC 我知道的: 我发现的最好的这种表征是Servedio和Gortler在本文中使用的,他们将其归因于Bshouty,Cleve,Gavaldà,Kannan和Tamon。他们定义了一个称为的组合参数γCγC\gamma^C,其中是概念类,具有以下属性。(让Q C为在此模型中学习C所需的最佳查询数。)CCCQCQCQ_CCCC QC=Ω(1/γC)QC=Ω(log|C|)QC=O(log|C|/γC)QC=Ω(1/γC)QC=Ω(log⁡|C|)QC=O(log⁡|C|/γC)Q_C = \Omega(1/\gamma^C)\qquad Q_C = \Omega(\log |C|) \qquad Q_C = O(\log |C|/\gamma^C) 这种表征几乎是严格的。但是,上限和下限之间可能存在二次间隙。例如,如果,则下限为Ω (k ),但上限为O (k 2)。(我也认为此差距是可以实现的,即存在一个概念类,其下限均为Ω (k ),但上限为O (k 2)。)1/γC=log|C|=k1/γC=log⁡|C|=k1/\gamma^C = \log |C| = kΩ(k)Ω(k)\Omega(k)O(k2)O(k2)O(k^2)Ω(k)Ω(k)\Omega(k)O(k2)O(k2)O(k^2)


2
量子PAC学习
背景 中的函数可以使用经典算法在准多项式时间内通过PAC学习,该经典算法需要随机选择O (2 l o g (n )O (d ))查询来学习深度为d的电路[1]。如果没有分解算法,那么这是最佳的[2]。当然,在量子计算机上,我们知道如何分解,因此该下限无济于事。此外,最佳经典算法使用函数的傅立叶频谱,因此大喊“量化我!”一ç0一种C0AC^0O (2升Ò 克(n )Ø (d))Ø(2升ØG(ñ)Ø(d))O(2^{log(n)^{O(d)}})2ño (1 )2ñØ(1个)2^{n^{o(1)}} [1] N. Linial,Y。Mansour和N. Nisan。[1993]“恒定深度电路,傅立叶变换和可学习性”,ACM杂志40(3):607-620。 [2]哈里托诺夫(M. Kharitonov)。[1993]“分布特定学习的密码学硬度”,ACM STOC'93会议录,第372-381页。 实际上,六年前,斯科特·亚伦森(Scott Aaronson)将的可学习性作为他的十个量子计算理论的半大挑战之一。一ç0一种C0AC^0 题 我的问题有三点: 1)在密码学假设的前提下,是否存在自然函数族的示例,量子计算机可以比传统计算机更快地学习? 2)特别是在的可学习性方面是否有任何进展?(或更具雄心的T C 0)一ç0一种C0AC^0ŤC0ŤC0TC^0 3)关于的可学习性,Aaronson评论说:“那么,在学习神经网络的接近最佳权重方面,量子计算机将比传统计算机具有巨大优势。” 有人可以为神经网络和T C 0电路的权重更新之间的关系提供参考吗?(除了阈门看起来像是乙状神经元的事实之外)ŤC0ŤC0TC^0ŤC0ŤC0TC^0(这个问题已经被问及回答了)



1
是否存在“最大”难以测试的分布特性?
用于分布特性P A分配的测试算法(这是刚刚超过[n]的所有分布的一些子集)是根据一些分布d允许访问样本,并且需要决定(WHP)如果或d (d ,P )> ε(d这里通常是ℓ 1米距离)。最常见的复杂性度量是算法使用的样本数。d ∈ PD∈PD\in Pd(D ,P)> ϵd(D,P)>ϵd(D,P)>\epsilondddℓ1ℓ1\ell_1 现在,在具有对某个对象的查询访问权的标准属性测试中,查询复杂度的线性下限显然是可能的最强下限,因为查询会显示整个对象。分发测试也是如此吗?nnn 据我了解,测试分布属性的“琐碎”上限是 ---由Chernoff边界,这足以“写下”一个接近D in的分布D'。ℓ 1的距离,然后我们就可以检查是否有任何的分布接近d”,这是在P(这可能需要花费无限的时间,但是这是不相关的样本的复杂性)。O(n2logn)O(n2log⁡n)O(n^2\log n)ℓ1ℓ1\ell_1 对于所有分布特性,是否有更好的“琐碎”测试? 有没有我们知道样本下界强于线性的分布特性?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.