深度学习方法的问题和替代方法?


17

在过去的50年中,神经网络的流行程度的上升/下降/上升已经成为AI研究的“晴雨表”。

从该网站上的问题中可以很明显地看出,人们对将深度学习(DL)应用于各种困难问题很感兴趣。

因此,我有两个问题:

  1. 从业者-您发现将DL“开箱即用”应用于问题的主要障碍是什么?
  2. 研究人员-您使用(或已开发)哪些技术可能有助于解决实际问题?它们在DL中还是在提供替代方法?

3
如果您有两个问题,则应该问两个问题。
bpachev

1
它们显然是相互关联的。
NietzscheanAI

Answers:


5

总而言之,应用深度学习中存在两个主要问题。

  • 首先是计算上的,它是详尽的。普通的CPU甚至需要大量时间来执行深度学习的基本计算/培训。因此,建议使用GPU,即使在很多情况下它们可能还不够。典型的深度学习模型不支持使用多项式的理论时间。但是,如果我们将ML中相对简单的模型用于相同的任务,则常常会得到数学上的保证,即这种更简单的算法所需的训练时间在多项式中。对我而言,至少这可能是最大的不同。

    但是,有解决此问题的解决方案。一种主要方法是仅将DL算法优化为多次迭代(而不是在实践中查看全局解决方案,而只是将算法优化为一个好的局部解决方案,而“良好”的标准由用户定义)。

  • 对于年轻的深度学习爱好者来说,另一个可能会引起争议的问题是,深度学习算法缺乏理论上的理解和推理。深度神经网络已成功用于许多场合,包括手写识别,图像处理,自动驾驶汽车,信号处理,自然语言处理和生物医学分析。在某些情况下,它们甚至超过了人类。但是,话虽如此,它们在任何情况下都没有,在理论上没有大多数统计方法那样合理。

    我不会详细介绍,而是由您自己决定。每种算法/方法都各有利弊,DL也不例外。正如许多情况所证明的那样,它非常有用,每个年轻的数据科学家都必须至少学习DL的基础知识。但是,在问题相对简单的情况下,最好使用著名的统计方法,因为它们有很多理论结果/保证可以支持这些方法。此外,从学习的角度来看,最好从简单的方法开始并首先掌握它们。


“在多项式中”是指“在多项式时间内”,对吗?您有支持的参考吗?
NietzscheanAI18年

是的,这正是我的意思。当然,可以在很多情况下证明...我将从最简单的示例开始,仅训练具有三个节点的网络,而两层是NP完全问题,如下所示。(citeseerx.ist.psu。 edu / viewdoc /…)。请记住,本文非常老,现在,我们有了一些启发式方法,对如何在实践中进行改进有了更多的想法,但是从理论上讲,仍然没有改进的结果。
乌拉

关于同一问题的其他不错的文章,其中还描述了一些技巧,可以减少实践中的培训时间。(pdfs.semanticscholar.org/9499/...
Sibghat乌拉

假设我们要预测某物的价格。具有最小二乘拟合的简单线性回归将有一个多项式时间,而使用神经网络(甚至是最简单的)解决相同的问题将导致NP完全问题。这是一个很大的差异。最终,您必须仔细选择用于特定任务的算法。例如,最小二乘拟合具有特定的假设,其中包括“算法正在学习的理想函数可以作为特征的线性组合来学习”。如果该假设无效,那么结果也将得到实现。
西布哈特·乌拉

当然,仅是因为一个问题(在这种情况下,找到最佳权重)是NP完全问题本身并不意味着没有有效的实用方法来找到良好的权重...
NietzscheanAI

5

我对ML / DL的经验很少,不能称自己为从业者,但这是我对第一个问题的回答:

DL很好地解决了分类任务。并不是每个实际问题都可以用分类来表述。分类域需要预先知道。尽管分类可以应用于任何类型的数据,但有必要使用将要应用的特定领域的样本来训练NN。如果在某个时间点切换了域,同时保持相同的模型(NN结构),则必须使用新的样本对其进行重新训练。此外,即使是最好的分类器也有“空白”- 可以从训练样本中轻松构建对抗性示例,以使人类无法察觉变化,但是训练模型会错误地对变化进行分类。


2
可以将“分类”视为“回归”的特例,因此可能是对DL的更好表征。
NietzscheanAI

3

问题2.我正在研究超维计算是否可以替代深度学习。Hyper-D使用非常长的位向量(10,000位)来编码信息。向量是随机的,因此它们近似正交。通过对这些向量的集合进行分组和平均,可以形成一个“集合”,然后查询以查看未知向量是否属于该集合。该集合可以被视为概念或概括图像等。训练和识别一样非常快。需要做的是模拟深度学习成功的领域,并将Hyper-D与之进行比较。


有趣。那么,这与Kanerva的“稀疏分布式内存”有何不同?
NietzscheanAI18年

两者都是由Pentti Kanerva开发的。查找超维计算以了解其区别。在这里回答太久。
Douglas G Danforth

1

从数学的角度来看,多层深层网络中的主要问题之一是消失不稳定的梯度。每个其他隐藏层的学习速度明显降低,几乎抵消了该额外层的好处。

现代深度学习方法可以改善这种行为,但是在简单的老式神经网络中,这是一个众所周知的问题。您可以在此处找到一份书面分析以进行更深入的研究。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.