是否存在（深度）神经网络明显无法胜过其他任何方法的监督学习问题？

我已经看到人们对SVM和内核进行了很多努力，并且它们作为机器学习的入门者看起来非常有趣。但是，如果我们期望几乎总能找到（深度）神经网络方面的出色解决方案，那么在这个时代尝试其他方法的意义是什么？

这是我对此主题的限制。

我们只考虑监督学习；回归和分类。
结果的可读性不计算在内；只有在监督学习问题上的准确性才重要。
不考虑计算成本。
我并不是说其他任何方法都没有用。

— 罗宾
source

对可用培训数据量有什么限制？

— Jake Westfall

我还没有做，但是我希望您在训练神经网络时遇到困难，例如在一个非平凡的矩阵上进行奇异值分解（例如，等级> 10）。

— Mehrdad

Google翻译现在使用神经网络，并且现在对巴西城镇名称产生了更多的好奇失败，因为巴西城镇名称在字典中逐字使用会更好

— 亨利

我从未听说过使用矩阵完成的深度学习（尽管在深度学习之前使用矩阵完成是常见的做法）。您可能会争辩说这可能是一个计算成本问题，但是值得注意的是，我不知道世界上所有的计算机是否都可以使用netflix问题进行深度学习矩阵的完成。

— 悬崖AB

@CliffAB ：（舌头在舌头一半处...）可能值得注意的是，他们可能做不到，但我不确定是否值得注意，您不知道他们是否能够；）

— Mehrdad

Answers:

这是有人可能会合理地偏爱非DNN方法的一个理论和两个实际原因。

Wolpert和Macready的免费午餐定理说

我们将相关结果称为NFL定理，因为它们证明了，如果算法在某一类问题上表现良好，那么它必然会为所有剩余问题的性能降低而付出代价。

换句话说，没有任何一种算法可以将它们全部统治。您必须进行基准测试。

这里最明显的反驳是，您通常并不关心所有可能的问题，而深度学习似乎可以很好地解决人们所做的几类问题关心（例如，对象识别），所以这是一个合理的第一/唯一的选择用于那些领域中的其他应用。
这些非常深的网络中的许多都需要大量的数据以及大量的计算才能适应。如果（假设）有500个示例，那么二十层网络永远都不会学得很好，而可能有可能拟合出更为简单的模型。存在大量令人难以置信的问题，无法收集大量数据。另一方面，人们可能会尝试学习解决相关问题（有更多数据可用），使用传输学习之类的方法使它适应特定的低数据可用性任务。
深度神经网络也可能具有异常的故障模式。有一些论文表明，几乎无法感知的变化会导致网络从正确分类图像转变为自信地对图像分类错误。（请参阅此处和Szegedy 等人的随附论文。）其他方法可能对此更有效：针对SVM的中毒攻击（例如Biggio，Nelson和Laskov的这种攻击），但是这些攻击是在火车上发生的，而不是经过测试的时间。相反，最近邻居算法有已知（但不是很好）的性能范围。在某些情况下，您可能会更满意总体性能较低而发生灾难的机会更少。

— 马特·克劳斯（Matt Krause）
source

我同意你所说的一切。但是问题在于“计算问题被忽略”。这意味着OP假设您将拥有无限的样本和无限的计算资源。

— SmallChess

无限计算！=无限样本。例如，我可以使用一个庞大的集群来处理数据。但是，我们为实际获取其中一些数据而进行的实验室实验非常困难，缓慢且耗时（单个数据点数小时至数天），并且世界上的所有计算都无法帮助实现这一目标。

— 马特·克劳斯

具有任何给定特征提取器的SVM可能像CNN一样容易受到对抗性输入的干扰-很难找到它们，因为我们没有容易获得的特征提取层梯度。

— Dougal

@MattKrause给出的问题的最新有趣实例，并尝试通过转移学习来解决该问题，这是在《渐进网络像素的模拟到真实机器人学习》中

— HBeel

@Dougal，我也想知道学习DNN特征提取器是否重要，而SVM通常是手工制作的，并且与人类注意到的特征相对应。使熊猫榜样如此阴险的部分原因是对抗性榜样与常规榜样之间的细微差别。

— 马特·克劳斯

某处在这个由杰夫·韩丁播放讲座（从神经网络的他Coursera课程），还有他在那里谈论两类问题的片段：

这里的问题噪声是主要特征，
这里的问题信号是关键特征。

我记得有人解释说，尽管神经网络在后一个领域蓬勃发展，但传统的统计方法通常更适合前者。分析世界上实际事物的高分辨率数字照片，这是深层卷积网络所擅长的地方，显然构成了后者。

另一方面，当噪声是主要特征时，例如，在具有50个病例和50个对照的医学病例对照研究中，传统的统计方法可能更适合此问题。

如果有人找到该视频，请发表评论，我会进行更新。

— 本·奥戈里克
source

极好的答案。这就是为什么我们转向深度学习来完成我们已经可以做的事情（例如识别图像和编写文本），但是可能转向其他模型来解决可能在直观上难以实现的事情。

— Mustafa S Eisa

我本人以我的最大利益来回答这个问题。非常感谢您的回答。

— 罗宾（Robin）

两个线性完善的相关变量。具有100万个隐藏层和2万亿个中子的深层网络能否击败简单的线性回归？

已编辑

以我的经验，样本收集比计算更昂贵。我的意思是，我们可以租用一些Amazon实例，进行深度学习培训，然后几天后再回来。在我的领域中，费用约为200美元。成本是最小的。我的同事一天中的收入要多。

样品采集通常需要领域知识和专用设备。深度学习仅适用于廉价且易于访问的数据集的问题，例如自然语言处理，图像处理以及您可以从Internet上刮除的任何内容。

— 国际象棋
source

当然，在满足MLE假设的生成模型的条件下，任何MLE方法都将胜过深度学习。但是，这绝不会在真实数据上发生，或者至少不会发生在任何有趣的问题上（即无法预测硬币翻转的结果）。因此，我认为OP正在寻求有关涉及实际数据的实际问题的示例。

— 悬崖AB

这是一个非常好的答案。您提供了非常直观和现实的观点。非常感谢。

— 罗宾（Robin）