我阅读过许多论文的作者都断言,支持向量机是解决其回归/分类问题的上乘技术,他们意识到通过神经网络无法获得相似的结果。比较经常指出
SVM,而不是NN,
- 有很强的创立理论
- 由于二次编程,达到全局最优
- 选择适当数量的参数没有问题
- 不太容易过拟合
- 需要更少的内存来存储预测模型
- 产生更具可读性的结果和几何解释
是认真对待的一个被广泛接受的思想吗?不要引用免费午餐定理或类似的陈述,我的问题是关于这些技术的实际使用。
另一方面,NN肯定会面对哪种抽象问题?
我阅读过许多论文的作者都断言,支持向量机是解决其回归/分类问题的上乘技术,他们意识到通过神经网络无法获得相似的结果。比较经常指出
SVM,而不是NN,
是认真对待的一个被广泛接受的思想吗?不要引用免费午餐定理或类似的陈述,我的问题是关于这些技术的实际使用。
另一方面,NN肯定会面对哪种抽象问题?
Answers:
这是一个权衡的问题。SVM 现在就在,NN以前就在。您会发现越来越多的论文声称存在随机森林,概率图形模型或非参数贝叶斯方法。有人应在《不可能的研究纪事》中发布关于哪些模型将被视为髋关节的预测模型。
前面已经说过,对于许多著名的困难监督问题,性能最好的单个模型是某种类型的NN,某种类型的SVM或使用信号处理方法实现的特定于问题的随机梯度下降方法。
NN的优点:
NN仍然受益于要素工程,例如,如果您具有长度和宽度,则应该拥有区域要素。对于相同的计算量,该模型将具有更好的性能。
大多数有监督的机器学习都要求您将数据结构化为按特征矩阵的观察值,并将标签作为长度观察值的向量。对于NN,此限制不是必需的。结构化SVM的工作非常出色,但是它不可能像NN一样灵活。
SVM的优点:
较少的超参数。通常,SVM需要较少的网格搜索来获得合理准确的模型。具有RBF内核的SVM通常表现良好。
全球最佳保证。
NN和SVM的缺点:
如果您要接受黑匣子,那么通常可以通过打包/堆叠/提升许多具有不同权衡的模型来提高准确性。
随机森林之所以具有吸引力,是因为它们可以毫不费力地生成袋外预测(留一出预测),它们可以很好地解释,它们具有良好的偏差-平衡权衡(对于装袋模型而言非常好),并且对选择偏见相对有力。编写并行实现非常简单。
概率图形模型很有吸引力,因为它们可以将特定领域的知识直接纳入模型中,并且在这方面可以解释。
非参数(或实际上非常参数化)的贝叶斯方法很有吸引力,因为它们直接产生置信区间。它们在小样本量时表现很好,在大样本量时表现很好。编写线性代数的实现非常简单。
根据我的经验,您的问题的答案是“否”,SVM并非绝对出色,并且哪种方法效果最佳取决于手头数据集的性质以及操作员使用每套工具的相对技能。通常,SVM很好,因为训练算法高效且具有正则化参数,这迫使您考虑正则化和过度拟合。但是,在某些数据集中,MLP的性能要比SVM好得多(因为允许它们决定自己的内部表示,而不是由内核功能预先指定)。良好的MLP实现(例如NETLAB)和正则化,早期停止或架构选择(或者更好的是全部三个)通常可以产生非常好的结果,并且是可重现的(至少在性能方面)。
模型选择是SVM的主要问题,如果对模型选择标准进行了过度优化,那么选择内核以及优化内核和正则化参数通常会导致严重的过度拟合。虽然支持SVM的理论是一种安慰,但它大多数仅适用于固定内核,因此,一旦尝试优化内核参数,它就不再适用(例如,在调整内核时要解决的优化问题)通常是非凸的,并且可能具有局部最小值)。
我将尽力解释我的观点,这些观点似乎得到了大多数朋友的认同。我对NN完全没有支持SVM的以下问题:
这并不意味着您不应该使用NN,而应该仔细使用它。例如,卷积神经网络对于图像处理可能是非常好的,其他深度神经网络也被证明对其他问题也有好处。
希望它会有所帮助。
我正在使用神经网络解决大多数问题。关键是,在大多数情况下,更多的是用户体验而不是模型。这就是为什么我喜欢NN的一些原因。
我将逐步介绍您的其他观点。
有很强的创立理论
我想说,在这种情况下,神经网络同样强大:因为您是在概率框架中训练它们的。这使得可以使用先验和贝叶斯处理(例如,使用变分技术或近似法)。
由于二次编程,达到全局最优
对于一组超参数。但是,要寻找好的hp是非凸的,因此您将不知道是否也找到了全局最优值。
选择适当数量的参数没有问题
使用SVM,还必须选择超级参数。
需要更少的内存来存储预测模型
您需要存储支持向量。通常,支持SVM存储MLP并不便宜,这取决于具体情况。
产生更具可读性的结果和几何解释
在分类的情况下,MLP的顶层是逻辑回归。因此,存在几何解释(超平面分离)和概率解释。
在某些方面,这两种广泛的机器学习技术是相关的。虽然并不完美,但我发现有两篇文章有助于说明这些技术的相似之处,如下
Ronan Collobert和Samy Bengio。2004年。感知器,MLP和SVM之间的链接。在二十一届机器学习国际会议论文集(ICML '04)中。美国纽约州纽约市ACM,23-。DOI:https: //doi.org/10.1145/1015330.1015415
和
安德拉斯,彼得。(2002)。支持向量机和正则化神经网络的等效性。神经处理字母。15. 97-104。10.1023 / A:1015292818897。