Questions tagged «machine-learning»

有关计算机算法的问题,这些算法会自动发现数据中的模式并根据这些模式做出正确的决策。

7
为什么尽管VC维度不佳,但深度学习还是大肆宣传?
神经网络的Vapnik–Chervonenkis(VC)维度公式的范围从到,在最坏的情况下为,其中是边的数量和是节点数。拥有强大泛化保证的训练样本数与VC维数成线性关系。Ô (Ë)O(E)O(E)Ô (Ë2)O(E2)O(E^2)Ô (Ë2V2)O(E2V2)O(E^2V^2)ËEEVVV 这意味着对于具有数十亿边缘的网络(如成功的深度学习模型而言),训练数据集在最佳情况下需要数十亿个训练样本,在最坏情况下需要四千万个训练样本。目前最大的训练集大约有1000亿个样本。由于没有足够的训练数据,因此深度学习模型不太可能泛化。相反,他们过度拟合了训练数据。这意味着模型在与训练数据不同的数据上将无法很好地执行,这对于机器学习来说是不希望的特性。 根据VC维度分析,鉴于深度学习无法泛化,为什么深度学习结果如此夸大?仅对某些数据集具有高精度本身并不意味着什么。深度学习架构是否有一些特别之处,可以显着降低VC维度? 如果您认为VC维度分析不相关,请提供证据/解释,表明深度学习是泛化的,并且不适合过度。即它具有良好的召回率和精度,还是仅具有良好的召回率?100%的召回率和100%的精度都是微不足道的。两者都接近100%是非常困难的。 与此相反,这里有证据表明深度学习过于适合。过拟合模型由于包含确定性/随机噪声,因此很容易被愚弄。参见下图,了解过度拟合的示例。 另外,尽管测试数据具有良好的准确性,但请查看该问题的较低答案,以了解过拟合模型的问题。 有人回应说,正则化解决了较大的VC维度的问题。请参阅此问题以进行进一步讨论。


2
Dana Angluin用于学习常规集的算法是否有改进
Dana Angluin在1987年的开创性论文中提出了一种多项式时间算法,用于从成员资格查询和理论查询(拟议DFA的反例)中学习DFA。 她表明,如果您尝试学习具有个状态的最小DFA ,而最大的countexample的长度为m,那么您需要进行O (m n 2)个成员资格查询,最多需要进行n − 1个理论查询。nnnmmmO(mn2)O(mn2)O(mn^2)n−1n−1n - 1 学习常规集所需的查询数量是否有了重大改进? 参考文献和相关问题 Dana Angluin(1987)“从查询和反例中学习规则集”,《启发与计算》 75:87-106 成员资格查询和反例模型中的学习下限

2
为什么神经网络似乎在拓扑受到限制的情况下表现更好?
全向学习者是完全连接的(至少一层到两层以上的隐藏层)反向传播网络。不幸的是,他们通常学习缓慢,倾向于过度适应或笨拙的概括。 通过愚弄这些网络,我观察到修剪某些边缘(以使它们的权重为零且无法更改)趋向于使网络学习得更快并且泛化得更好。是否有一个原因?仅仅是因为权重搜索空间的维数减少,还是还有更细微的原因? 另外,更好的概括是否是我正在研究的“自然”问题的产物?

4
如何确定社交网络中可能的连接?
我很想确定一种解决“建议的朋友”算法的方法。 Facebook具有一项功能,它会向您推荐您可能认识的个人。这些用户通常(不包括用户特别推荐朋友的极端情况)与自己的网络高度相似。即,共同的朋友数量很多。我认为Twitter的“关注对象”机制遵循类似的路径。 Facebook员工Stephen Doyle(Igy)表示,使用EdgeRank公式的相关新闻提要似乎表明,比起类似外表之类的朋友,有价值的更多。另一个用户建议使用Google Rank系统。 Facebook的指出他们的新闻饲料优化为哪里∑uewede∑uewede\sum u_{e}w_{e}d_{e} =查看用户与边缘创建者之间的亲和力分数 w e =该边缘的权重(创建,评论,喜欢,标签等) d e =基于创建边缘多长时间的时间衰减因子 ueueu_{e} wewew_{e} deded_{e} 对这些项目求和应该可以得出对象的等级,正如Igy所暗示的那样,这意味着建议朋友使用相似格式的东西。 所以我猜想这是通常通过等级系统完成所有类型的连接的方式吗?


2
为什么C的void类型不同于Empty / Bottom类型?
维基百科以及我发现的其他来源都将C的void类型列为单位类型,而不是空类型。我觉得这很混乱,因为在我看来,它void更适合于空/底类型的定义。 void据我所知,没有价值观存在。 返回类型为void的函数指定该函数不返回任何内容,因此只能执行某些副作用。 类型的指针void*是所有其他指针类型的子类型。同样,void*在C中进行来回转换是隐式的。 我不确定最后一点是否可以作为void空类型的参数,void*或多或少是与无关的特例void。 另一方面,void它本身不是所有其他类型的子类型,据我所知,这是将类型作为底部类型的要求。
28 type-theory  c  logic  modal-logic  coq  equality  coinduction  artificial-intelligence  computer-architecture  compilers  asymptotics  formal-languages  asymptotics  landau-notation  asymptotics  turing-machines  optimization  decision-problem  rice-theorem  algorithms  arithmetic  floating-point  automata  finite-automata  data-structures  search-trees  balanced-search-trees  complexity-theory  asymptotics  amortized-analysis  complexity-theory  graphs  np-complete  reductions  np-hard  algorithms  string-metrics  computability  artificial-intelligence  halting-problem  turing-machines  computation-models  graph-theory  terminology  complexity-theory  decision-problem  polynomial-time  algorithms  algorithm-analysis  optimization  runtime-analysis  loops  turing-machines  computation-models  recurrence-relation  master-theorem  complexity-theory  asymptotics  parallel-computing  landau-notation  terminology  optimization  decision-problem  complexity-theory  polynomial-time  counting  coding-theory  permutations  encoding-scheme  error-correcting-codes  machine-learning  natural-language-processing  algorithms  graphs  social-networks  network-analysis  relational-algebra  constraint-satisfaction  polymorphisms  algorithms  graphs  trees 

4
有监督的学习与无监督的学习到底有什么区别?
我正在尝试了解聚类方法。 我想我明白的是: 在监督学习中,分配给类别/标签的数据在计算之前是已知的。因此,使用标签,类或类别来“学习”对于那些集群真正重要的参数。 在无监督学习中,将数据集分配给段,而无需了解聚类。 这是否意味着,如果我什至不知道哪个参数对于细分至关重要,我应该喜欢监督学习?

6
从一组对中生成组合而无需重复元素
我有一对。每对都具有(x,y)的形式,使得x,y属于范围内的整数[0,n)。 因此,如果n为4,那么我有以下几对: (0,1) (0,2) (0,3) (1,2) (1,3) (2,3) 我已经有一对了。现在,我必须使用n/2对构建一个组合,这样就不会重复任何整数(换句话说,每个整数在最终组合中至少出现一次)。以下是正确和不正确组合以更好地理解的示例 1. (0,1)(1,2) [Invalid as 3 does not occur anywhere] 2. (0,2)(1,3) [Correct] 3. (1,3)(0,2) [Same as 2] 一旦我有了配对,有人可以建议我一种生成所有可能组合的方法。

12
为什么过拟合不好?
我已经研究了很多,他们说过度适合机器学习中的动作是不好的,但是我们的神经元确实变得非常强大,可以找到我们所经历或避免的最佳动作/感觉,并且可以从不良中减少/增加。 /好或坏触发的好,表示动作会趋于平缓,最终得到最佳(正确),超强自信的动作。这怎么会失败?它使用正负感应触发器来减少/重新增加44pos中的动作。至22neg。



1
歌曲的聚类(乔·沃尔什问题)
老鹰乐队是70年代和80年代的摇滚超人团体,负责加利福尼亚饭店等经典活动。它们有两种非常独特的声音,一种是吉他手Joe Walsh所在的声音(例如,在Fast Lane中的Life中),另一种则是他缺席的声音。后面的歌曲明显更沉闷/无聊。 我很好奇地了解(无监督的)学习算法能够检测到两种声音之间的差异的程度。可以想象,很容易分辨出速度金属和古典音乐之间的区别,但是同一乐队的声音又如何呢? 我将如何进行这样的实验?假设我已经具有某种标准格式的相关音频文件。 请注意,这也应适用于其他摇滚乐队,例如在1980年更换主唱的AC / DC,甚至可能适用于其他流派,甚至更现代的音乐。

2
哪种数据结构组合可以有效地存储离散贝叶斯网络?
我了解贝叶斯网络背后的理论,并且想知道在实践中建立贝叶斯网络需要做什么。假设在这个例子中,我有一个由100个离散随机变量组成的贝叶斯网络(有向网络)。每个变量最多可以使用10个值之一。 我是否将所有节点都存储在DAG中,并且为每个节点存储其条件概率表(CPT)?当某些CPT更改时(除DAG使用的那些CPT以外),我还应使用其他数据结构来确保有效地计算值吗?

2
为什么二倍体(显性/隐性)基因没有在遗传算法中广泛使用?
此问题是从“人工智能堆栈交换” 迁移而来的,因为可以在“计算机科学堆栈交换”上回答。 迁移 5年前。 在遗传算法的大多数实现中,重点是交叉和变异。但是不知何故,它们中的大多数都忽略了基因的二倍体(显性/隐性)性质。就我(有限的)理解而言,基因的显性/隐性是决定生物体实际特征的一个非常重要的因素。 所以我的问题是,为什么在大多数实施方案中基因算法的基因没有二倍体性质? 是因为: 它没有太大的好处 它为原本简单的算法增加了不必要的复杂性 很难实现 还是完全其他?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.