Questions tagged «machine-learning»

有关机器学习的理论问题,尤其是计算学习理论,包括算法学习理论,PAC学习和贝叶斯推理

2
学习平面中的三角形
我给学生们分配了一个问题,即找到一个与R 2中的个点的集合一致的三角形,并用± 1标记。(A三角形Ť是一致的与标记的样品,如果Ť包含的所有正和无负点的;可以通过假设,样品坦言至少1一致的三角形)。米mmR2R2\mathbb{R}^2±1±1\pm1TTTTTT 他们(或我)可以做的最好的事情是在时间运行的算法,其中m是样本大小。谁能做得更好?O(m6)O(m6)O(m^6)mmm


3
统计查询模型算法?
我在交叉验证的问答中问了这个问题,但似乎它与CS的关系远大于与Statistics的关系。 您能否给我一些机器学习算法的示例,这些算法从数据集的统计属性中学习,而不是从单个观测值本身中学习,即采用统计查询模型?

1
神经网络的计算能力?
假设我们有一个具有k个输入和一个输出的单层前馈神经网络。它计算从函数 ,这也很容易地看到,这具有至少相同的计算能力如甲Ç 0。只是为了好玩,我们将由单层神经网络可计算的函数集称为“ N e u r a l ”。{ 0 ,1 }ñ→ { 0 ,1 }{0,1}n→{0,1}\lbrace 0,1\rbrace ^{n}\rightarrow\lbrace 0,1\rbrace 一ç0AC0AC^0ñË ú [R 一升NeuralNeural 但是,似乎它可能比单独的具有更多的计算能力。一ç0AC0AC^0 因此...是或ñ é ù ř 一升= 甲Ç 0?以前也研究过这种复杂性类吗?一ç0⊆ ñË ú [R 一升AC0⊆NeuralAC^0 \subseteq Neuralñè ù ř 一升= 甲Ç0Neural=AC0Neural = AC^0

1
参考请求:次模最小化和单调布尔函数
背景:在机器学习中,我们经常使用图形模型来表示高维概率密度函数。如果我们放弃密度积分(求和)为1的约束,我们将得到一个未归一化的图结构能量函数。 假设我们有这样的能量函数,,在曲线图上定义的G ^ = (V,ê)。有一个变量X为图中的每个顶点,并且有实值一元和成对的功能,θ 我(X 我):我∈ V和θ 我Ĵ(X 我,X Ĵ):我Ĵ ∈ ë,分别。那么,全能量就是EEEG=(V,E)G=(V,E)G = (\mathcal{V}, \mathcal{E})xxxθi(xi):i∈Vθi(xi):i∈V\theta_i(x_i) : i \in \mathcal{V}θij(xi,xj):ij∈Eθij(xi,xj):ij∈E\theta_{ij}(x_i, x_j) : ij \in \mathcal{E} E(x)=∑i∈Vθi(xi)+∑ij∈Eθij(xi,xj)E(x)=∑i∈Vθi(xi)+∑ij∈Eθij(xi,xj)E(\mathbf{x}) = \sum_{i \in \mathcal{V}} \theta_i(x_i) + \sum_{ij \in \mathcal{E}} \theta_{ij}(x_i, x_j) 如果所有的是二进制的,我们能想到的的X作为指示集合成员,并与术语谈论子模的只是一个小的滥用。在这种情况下,能量的功能是当且仅当子模θ 我Ĵ(0 ,0 )+ θ 我Ĵ(1 ,1 )≤ θ 我Ĵ(0 ,1 )+ θ …


5
为什么机器学习不能识别素数?
假设我们有一个大小为n的整数V_n的矢量表示 该向量是机器学习算法的输入。 第一个问题:对于哪种表示形式,可以使用神经网络或其他矢量到位ML映射来学习n的素数/复合性。这纯粹是理论上的-神经网络的大小可能不受限制。 让我们忽略已经与素数测试相关的表示形式,例如:n个因子的空分隔列表,或者诸如Miller Rabin中存在的复合性见证。相反,我们将重点放在具有不同半径的表示形式上,或将其表示为(可能是多元)多项式的系数向量。或其他异国情调的人。 第二个问题:不管表示向量的具体细节如何,如果有的话,什么类型的ML算法将无法学习?同样,让我们​​省略上面例子中的“被琐碎的事所禁止”表示。 机器学习算法的输出为单个位,素数为0,复合数为1。 这个问题的标题反映了我对问题1的共识是“未知”而问题2的共识是“可能是大多数ML算法”的评估。我之所以这样问,是因为我对此一无所知,我希望有人能指明方向。 这个问题的主要动机(如果有的话)是:是否可以在特定大小的神经网络中捕获的素数集的结构存在“信息理论”限制?因为我不是这种术语的专家,所以让我重新阐述一下这个想法,看看是否对这个概念有一个蒙特卡洛近似值:素数集的算法复杂度是多少?素数是Diophantine可递归枚举的(并且可以满足特定的大二色子方程)是否可以用于捕获具有上述输入和输出的神经网络中的相同结构。

3
何时在SVD上使用Johnson-Lindenstrauss引理?
Johnson-Lindenstrauss引理允许将高维空间中的点表示为低维点。当找到最适合的较低维空间时,一种标准技术是找到奇异值分解,然后采用由最大奇异值生成的子空间。何时在SVD上使用Johnson-Lindenstrauss有兴趣?

5
无量纲数据的聚类算法
我有一个包含数千个点的数据集,并且可以测量任意两个点之间的距离,但是数据点没有维数。我想要一种算法来在此数据集中找到聚类中心。我认为由于数据没有维度,因此群集中心可能由多个数据点和一个容差组成,并且群集中的成员资格可能由数据点到群集中心中每个数据点的距离的平均值来确定。 如果这个问题有一个众所周知的解决方案,请原谅我,我对这种问题知之甚少!我的研究(非常有限)仅提出了维度数据的聚类算法,但是如果我遗漏了一些明显的内容,我会提前道歉。 谢谢!

2
SQ学习的计算查询复杂度
众所周知,对于PAC学习,存在一些自然概念类(例如,决策列表的子集),在这些概念类中,计算无边界学习者进行信息理论学习所需的样本复杂度与多项式所需的样本复杂度之间存在多项式差距。时间学习者。(请参见例如http://portal.acm.org/citation.cfm?id=267489&dl=GUIDE或http://portal.acm.org/citation.cfm?id=301437) 但是,这些结果似乎取决于对特定示例中的秘密进行编码,因此不会自然地转化为学习的SQ模型,学习者只能在其中查询分布的统计属性。 是否知道是否存在可以通过O(f(n))查询在SQ模型中进行信息理论学习的概念类,但是只有通过g(n)的Omega(g(n))查询才可以进行计算有效的学习)>> f(n)?

1
鉴于
这是一个与学习军人类似的问题: 输入:函数,由隶属度oracle表示,即给定的oracle 返回f (x )。Xf:{0,1}n→{−1,1}F:{0,1个}ñ→{-1个,1个}f: \{0,1\}^n \rightarrow \{-1,1\}xXxf(x)F(X)f(x) 目标:查找子多维数据集S小号S的{ 0 ,1 }ñ{0,1个}ñ\{0,1\}^n与体积|S| = 2n − k|小号|=2ñ-ķ|S|=2^{n-k}使得| ËX ∈ 小号f(x )| ≥ 0.1|ËX∈小号F(X)|≥0.1\left|\mathbb{E}_{x \in S} f(x) \right| \ge 0.1。我们假定存在这样的子多维数据集。 这是很容易得到一个算法,在时间用完ñÔ (ķ )ñØ(ķ)n^{O(k)}和回报的概率一个正确的答案≥ 0.99≥0.99\ge 0.99通过尝试所有(2 n )ķ(2ñ)ķ(2n)^k的方式来选择子多维数据集和采样平均每一个。 我对找到一种可以在时间中运行的算法很感兴趣p Ò 升y(n ,2ķ)pØ升ÿ(ñ,2ķ)poly(n,2^k)。替代地,下界将是巨大的。这个问题类似于学习军政府,但我看不出它们的计算难度之间存在实际联系。 更新:@Thomas下面证明了此问题的样本复杂度为p Ò 升y(2ķ,logn )pØ升ÿ(2ķ,日志⁡ñ)poly(2^k,\log n)。有趣的问题仍然是问题的计算复杂性。 编辑:为简单起见,您可以假设存在一个带有的子多维数据集。Ë X ∈ 小号 ˚F (X …

1
数据库聚合如何形成一个monoid?
在cs.stackexchange上,我询问了github上的algebird scala库,推测他们为什么可能需要抽象的代数包。 github页面有一些线索: Monoid的实现用于有趣的近似算法,例如Bloom过滤器,HyperLogLog和CountMinSketch。这些使您可以像想数字一样思考这些复杂的操作,然后将它们加到hadoop或在线中以生成强大的统计信息和分析数据。 并在GitHub页面的另一部分中: 它最初是作为Scalding的Matrix API的一部分开发的,其中矩阵的值是Monoids,Groups或Rings的元素。随后,很明显,该代码在Scalding和Twitter的其他项目中具有更广泛的应用。 甚至Twitter的Oskar Boykin也赞叹道: 主要的答案是,通过利用半群结构,我们可以构建可以正确并行化的系统,而无需了解底层操作(用户有望实现关联性)。 通过使用Monoid,我们可以利用稀疏性(我们处理许多稀疏矩阵,其中在某些Monoid中几乎所有值都是零)。 通过使用Rings,我们可以对数字以外的东西进行矩阵乘法(有时我们做过)。 algebird项目本身(以及发行历史)非常清楚地解释了这里发生的事情:我们正在构建许多用于聚合大型数据集的算法,并且利用操作的结构使我们在系统方面取得了成功(这通常是尝试在1000个节点上生产算法时的痛点)。 为任何Semigroup / Monoid / Group / Ring解决一次系统问题,然后您可以插入任何算法,而无需考虑Memcache,Hadoop,Storm等。 怎么样Bloom filters/ hyperloglog/ countminsketch同样的数字? 数据库聚合如何具有单调结构? 这个半身像是什么样的?他们曾经有过小组组织吗? 参考文献会有所帮助。

1
噪声奇偶校验(LWE)下限/硬度结果
一些背景: 我有兴趣为错误学习(LWE)问题找到“鲜为人知”的下界(或硬度结果),以及诸如环上错误学习之类的概括。对于特定的定义等,这是Regev进行的一次不错的调查:http : //www.cims.nyu.edu/~regev/papers/lwesurvey.pdf (R)LWE型假设的标准类型是通过(可能是量子)归约到(可能是理想)晶格上的最短向量问题。已知SVP的通常公式是NP难的,并且相信很难近似到小的多项式因数。(相关:很难将CVP近似到/ most-polynomial /因数内:http : //dl.acm.org/citation.cfm?id=1005180.1005182)我也听说它提到了(关于量子算法)将某些晶格问题(如SVP)近似为较小的多项式近似因子与非阿贝尔隐藏子组问题(由于其自身的原因而被认为很难)有关,尽管我从未见过明确的正式来源。 但是,我对来自学习理论的“噪声奇偶性”问题导致的硬度结果(任何类型)更感兴趣。这些可能是复杂度级别的硬度结果,具体的算法下限,样本复杂度界限,甚至是证明尺寸下限(例如,分辨率)。众所周知(也许很明显),LWE可以看作是“噪声奇偶性/学习奇偶性与噪声”(LPN)问题的推广,(从谷歌搜索中发现)似乎已用于降低编码理论和PAC等领域的硬度学习。 通过环顾四周,我仅发现(轻微次指数)LPN问题的上界,例如http://www.di.ens.fr/~lyubash/papers/parityproblem.pdf 题: 我知道LPN在学习社区中是最受信赖的。我的问题是:为什么? 是因为每个人都非常努力,但是还没有人找到好的算法吗?上面的斜体字样(或我遗漏的其他字词)是否存在已知的下界? 如果答案很明确,那么对已知内容和/或对调查/讲义的引用进行简要总结将是很好的。 如果未知数太多,那么“最新技术”的论文越多越好。:)(提前感谢!)

1
成员资格查询和反例模型中的学习下限
Dana Angluin(1987 ; pdf)定义了一种具有成员资格查询和理论查询(拟议功能的反例)的学习模型。她展示的是由最小DFA的代表的正规语言状态是可以学习在多项式时间内(这里建议功能的DFA)与Ø (米ñ 2)会员的查询,并在最ñ - 1理论查询(米是导师提供的最大反例的大小)。不幸的是,她没有讨论下界。ññnø (米Ñ2)Ø(米ñ2)O(mn^2)n − 1ñ-1个n−1米米m 我们可以通过假设一个魔术师来稍微概括一下模型,该老师可以检查任意函数之间的相等性,并提供反例(如果不同)。然后我们可以问学习比普通语言更大的课程有多困难。我对这种概括以及对常规语言的原始限制很感兴趣。 成员资格和反示例模型中的查询数量是否存在已知的下限? 我对成员资格查询,理论查询或两者之间的权衡取舍的下限感兴趣。我对任何函数类的下限都感兴趣,甚至比常规语言更复杂的类也是如此。 如果没有下界:在此模型中是否存在证明查询下界的障碍? 相关问题 Dana Angluin用于学习常规集的算法是否有改进

5
是否存在任何基于梯度下降的技术来搜索多维空间中函数的绝对最小值(最大值)?
我熟悉梯度下降算法,该算法可以找到给定函数的局部最小值(最大值)。 在函数具有多个局部极值的情况下,是否可以对梯度下降进行任何修改以找到绝对最小值(最大值)? 是否有通用的技术,如何增强可以找到局部极值的算法来找到绝对极值?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.