正如您对问题的评论所指出的那样,有很多人在努力寻找更好的东西。我想通过扩展@josh留下的评论来回答这个问题
所有模型都是错误的,但有些模型是有用的 (Wiki)
以上陈述是用于描述统计模型性质的一般事实。利用我们可用的数据,我们可以创建模型来让我们做一些有用的事情,例如估计一个预测值。
以线性回归为例
使用大量观察值,我们可以拟合一个模型,从而为给定一个自变量的近似值,给定自变量的任何值。
伯纳姆(KP);Anderson,DR(2002),“模型选择和多模型”>“推理:一种实用的信息理论方法”(第二版):
“模型是对现实的简化或近似,因此不会反映所有现实。...Box指出:“所有模型都是错误的,但有些模型是有用的。”尽管模型永远不能“真实”,但模型可能从非常有用到有用,再到最终对基本上没有用,多少有用。”
与模型的偏差(如上图所示)似乎是随机的,有些观察值在该线下方,而有些观察值在该线上方,但是我们的回归线显示出大致的相关性。尽管我们模型中的偏差似乎是随机的,但在实际情况下,还会有其他因素在起作用,导致这种偏差。例如,想象一下当汽车驶过路口时,他们必须向左或向右转才能继续行驶,而汽车没有特别的转弯模式。虽然我们可以说汽车的转向完全是随机的,但是每个驾驶员是否都到达交汇处,并在那一点上随机决定转向的方向?实际上,他们可能会出于特定原因前往特定的位置,并且在不试图停止每辆车询问其推理的情况下,我们只能将其行为描述为随机的。
在能够以最小偏差拟合模型的地方,我们如何确定某个未知点,未被注意或无法测量的变量在某个时候不会抛出模型?在巴西,蝴蝶翅膀的襟翼会在德克萨斯州引发龙卷风吗?
仅使用您提到的使用线性模型和SVN模型的问题在于,我们需要手动观察变量以及变量之间的相互影响。然后,我们需要确定哪些变量很重要,然后编写特定于任务的算法。如果我们只有几个变量,这可能很简单,但是如果我们只有数千个变量呢?如果我们想创建一个通用的图像识别模型,该方法可以现实地实现吗?
深度学习和人工神经网络(ANN)可以帮助我们为包含大量变量(例如图像库)的海量数据集创建有用的模型。正如您所提到的,有数量众多的解决方案可以使用ANN拟合数据,但是这个数量与我们通过反复试验开发自己的解决方案的数量是否真的有所不同吗?
人工神经网络的应用为我们完成了许多工作,我们可以指定我们的输入和期望的输出(并在以后进行调整以进行改进),然后交给人工神经网络来找出解决方案。这就是为什么人工神经网络通常被称为“黑匣子”的原因。从给定的输入中,它们输出近似值,但是(一般而言)这些近似值不包括有关近似值的详细信息。
因此,这实际上取决于您要解决的问题,因为该问题将决定哪种模型方法更有用。模型不是绝对准确的,因此总是存在“错误”的因素,但是结果越准确,它们就越有用。关于结果如何进行更详细的计算也可能有用,这取决于问题,它甚至可能比提高精度更有用。
例如,如果您要计算人员信用评分,则使用回归和SVM可以更好地进行计算。既可以直接调整模型,又可以向客户解释单独的独立变量对其总体得分的影响,这非常有用。人工神经网络可以帮助处理大量变量以获得更准确的分数,但是这种准确性会更有用吗?