SVM仍是最新领域?


10

似乎深度神经网络和其他基于神经网络的模型正在主导许多当前领域,例如计算机视觉,对象分类,强化学习等。

SVM(或其他模型)仍在哪些领域中产生最新的结果?

Answers:


12

最先进的技术是一门严峻的考验,因为尚不清楚应如何衡量。与最新技术类似的替代标准是询问您何时更喜欢尝试SVM。

SVM具有以下优点:

  1. 通过内核技巧,如果您想学习功能的许多非线性组合而不是原始功能集的模式,则SVM的运行时间不会显着增加。相比之下,像深度神经网络这样的更现代的方法将需要变得更深或更宽,才能对相同的模式进行建模,这将增加其训练时间。
  2. SVM在选择“保守”假设方面存在固有的偏见,因为它们试图找到最大的利润率假设,因此不太可能过度拟合数据。从某种意义上说,他们“烘烤”了奥卡姆的剃刀。
  3. SVM仅具有两个超参数(内核的选择和正则化常数),因此它们很容易针对特定问题进行调整。通常,通过在参数空间中执行简单的网格搜索来调整它们即可,这可以自动完成。

SVM也有一些缺点:

  1. SVM的运行时可以三次扩展您要训练的数据点的数量(即运行时)1。例如,这与在时间内运行的深度神经网络的典型训练方法相比效果不佳,其中是数据点的数量,是训练时期的数量,是网络中的权数。通常。O(n3)O(wne)neww,e<<n
  2. 为了利用内核技巧,SVM在任意两对点之间缓存了内核化“距离”的值。这意味着他们需要内存。这比大多数现实环境中的三次运行时要麻烦得多。数千个数据点将使大多数现代服务器崩溃,这将有效运行时间增加了几个数量级。与点1一起,这意味着对于上限超过5,000-10,000个数据点的集,SVM趋向于变得不可行。O(n2)

所有这些因素都表明SVM仅与一种用例相关:先验目标模式被认为是一些规则的,但高度非线性的,具有大量特征的函数的小型数据集。实际上,这种用例经常出现。我发现最近的一个示例应用程序(我发现SVM是一种自然方法)正在为目标功能建立预测模型,已知该功能是功能对之间交互(特别是代理对之间的通信)的结果。因此,具有二次核的SVM可以有效地学习保守,合理的猜测。


1如其他答案中所述,有一些近似算法可以比此算法更快地解决SVM。


7

由于该领域的最新进展,深度学习和神经网络成为了焦点,大多数专家认为这将是解决机器学习问题的未来。

但是,毫无疑问,经典模型仍然可以产生出色的结果,并且在某些问题上,与深度学习相比,它们可以产生更好的结果。

迄今为止,线性回归仍然是世界上使用最多的机器学习算法。

很难确定经典模型始终表现更好的特定领域,因为准确性在很大程度上取决于输入数据的形状和质量。

因此,算法和模型选择始终是一个权衡。这种说法有些准确,可以使经典模型在使用较小的数据集时仍然表现更好。但是,许多研究正在着手以更少的数据来改善深度学习模型的性能。

大多数经典模型需要较少的计算资源,因此,如果您的目标是速度,那么它会更好。

此外,经典模型更易于实现和可视化,这可以作为绩效的另一个指标,但这取决于您的目标。

如果您拥有无限的资源,正确标记的大量可观察数据集并且在问题域内正确实施了该数据集,则在大多数情况下,深度学习可能会为您提供更好的结果。

但是以我的经验,现实世界条件从来都不是完美的


0

完全同意@John的回答。将尝试用更多的观点来补充这一点。

SVM的一些优点:

a)SVM是由凸优化问题定义的,对于该问题,有许多有效方法可以解决,例如SMO

b)在高维空间以及维数大于样本数的情况下有效。

c)在决策函数中使用训练点的子集(称为支持向量),因此它也具有存储效率。

d)可以为决策功能指定不同的内核功能。。以最简单的形式,内核技巧就是将数据转换为另一个维度,该维度在数据类别之间具有明确的划分余量。

支持向量机的缺点包括:

a)如果特征的数量远大于样本的数量,则避免在选择内核函数和正则项时过度拟合至关重要。内核模型对于过度拟合模型选择标准可能非常敏感

b)SVM不直接提供概率估计。在许多分类问题中,您实际上需要类成员的概率,因此最好使用Logistic回归之类的方法,而不是对SVM的输出进行后处理以获得概率。


-1

用于低维表格数据的数据集。由于巨大的过度参数化,DNN在低维输入上效率不高。因此,即使数据集规模巨大,但每个样本都是低维SVM也会击败DNN。

更一般而言,如果数据是表格格式的,并且样本字段之间的相关性较弱且嘈杂,那么即使对于高维数据,SVM仍可能胜过DNN,但这取决于数据的特定性。

不幸的是,我无法回忆起有关该主题的任何具体论文,因此这通常是常识性的推理,您不必相信它。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.