为什么拥有机器学习的原理和数学理论如此重要?


25

我一直在想,为什么进行原理/理论机器学习如此重要?从个人的角度来看,我可以理解为什么有原则的机器学习如此重要:

  • 人类喜欢了解自己在做什么,我们就会找到美丽和满足感。
  • 从理论上讲,数学很有趣
  • 当存在指导事物设计的原则时,花在随机猜测,怪异的试验和错误上的时间会更少。例如,如果我们了解神经网络是如何工作的,也许我们可以花更多的时间设计它们,而不是现在投入大量的试验和错误。
  • 最近,如果原则很明确,理论也很明确,那么(希望)对系统更加透明。这很好,因为如果我们了解系统在运行什么,那么AI就有很多人大肆宣传的风险会立即消失。
  • 原则似乎是总结世界可能具有的重要结构以及何时使用一种工具而非另一种工具的一种简洁方法。

但是,这些理由是否真的足以证明对机器学习进行深入的理论研究是正确的?对理论的最大批评之一是,由于很难做到,他们通常最终会研究一些非常有限的案例,或者必须提出的假设实质上使结果无用。我想我曾经在Tor的创造者在麻省理工学院的一次演讲中听到过这一点。他听到的对托尔的一些批评只是理论上的争论,但从本质上讲,人们却无法证明有关现实生活中真实场景的事物,因为它们是如此复杂。

在这个拥有如此强大的计算能力和数据的新时代,我们可以使用真实的数据集和测试集来测试我们的模型。我们可以通过经验主义来观察事物是否起作用。如果我们能够获得能够与工程学和经验主义相结合的AGI或系统,那么仍然值得为机器学习追求原理和理论上的证明,尤其是当量化界限如此难以实现时,而直觉和定性答案则更容易实现用数据驱动的方法来实现?这种方法在古典统计学中不可用,这就是为什么我认为理论在那个时代如此重要的原因,因为数学是我们可以确保事物正确的唯一方法,或者它们可以按照我们认为的方式实际起作用。

我个人一直很喜欢并且认为理论和原则性方法很重要。但是,凭借能够尝试使用实际数据进行处理的能力和计算能力,使我感到怀疑的是,理论追求的高努力(可能是低回报)仍然值得吗?

机器学习的理论和原则追求真的那么重要吗?


“没有理论,您就寄希望于将经验结果应用于将应用ML方法的任何新数据集。但是,观察到经验结果时碰巧保留的某些属性或假设可能并不一定会向前发展在新的数据集上。”
查理·帕克

Answers:


17

对此没有正确的答案,但也许“一切适度”。虽然最近机器学习方面的许多改进(例如,辍学,残留连接,密集连接,批处理规范化)都不是基于特别深的理论(大多数可以在几段中证明),但我认为最终存在瓶颈是多少这样的结果可以产生巨大的影响。在某个时候,您必须坐下来制定一些额外的理论,以实现下一个重大飞跃。同样,理论可以指导直觉,因为它可以在合理的怀疑范围内证明模型的质量或局限性。对于确定某个特定问题的SGD是否优于动量,这尤其重要。这对理论来说是件好事:它迫使您抽象出您要解决的问题,

想到的最大例子是支持向量机。它们最初是由Vapnik和Chervonenkis在60年代初设计的,但实际上在90年代初才起飞,当时Vapnik和其他人意识到您可以使用Kernel Trick进行非线性SVM。Vapnik和Chervonenkis还研究了VC维的背后的理论,这是为机器学习提出一种复杂性度量的尝试。我无法想到VC维度的任何实际应用,但是我认为SVM的想法很可能受到其对此工作的影响。内核技巧本身来自关于希尔伯特空间的抽象废话数学。也许有人会说有必要知道这个抽象的废话来提出SVM,但是,我认为这可能会有所帮助,尤其是因为它使很多数学家对机器学习感到兴奋。

关于ResNet,最近有一些非常整洁的工作表明Residual体系结构确实不需要深达100层。实际上,一些工作表明,残差连接与RNN非常相似,例如,弥合残差学习,递归神经网络和视觉皮层之间的差距 ”,廖等人。我认为这绝对值得更深入地研究,因为它表明从理论上讲,具有多层结构的ResNet实际上效率低下且膨胀。

RNN的梯度裁剪的想法在现在著名的论文“ 关于训练递归神经网络的困难中非常有说服力-Pascanu等。等 尽管您可能没有所有理论就可以提出梯度削波,但我认为要理解RNN为何不做任何花哨的工作就很难训练,尤其是通过绘制类似于动态系统图的类推法,就已经走了很长一段路。 )。

熵随机梯度下降法令人兴奋。这些是从Langevin动力学派生的,许多理论结果都牢固地植根于经典的理论PDE理论和统计物理学。该结果令人鼓舞,因为他们以新的方式投掷了SGD,就如何将SGD陷入损失函数的局部波动以及如何局部平滑损失函数以提高SGD效率而言。理解SGD何时有用以及何时表现不佳有很长的路要走。通过在不同类型的模型上尝试SGD,您无法凭经验得出这一点。

在论文《神经网络的有趣特性》中,作者总结说,由于各层之间的Lipchitz常数较高,因此神经网络对对抗性示例(定义为计算得出的图像的细微扰动)敏感。这仍然是一个活跃的研究领域,只有通过更多的理论推导才能更好地理解。

还有一个拓扑数据分析的例子,至少有一个公司(Ayasdi)成立了。这是一个特别有趣的示例,因为用于它的技术是如此的具体和抽象,以至于从今天开始,仍然需要大量的时间才能了解该理论的思想在哪里。我的理解是,所涉及的算法的计算复杂度往往很高(但对于20年前的神经网络来说同样如此)。


7

这个问题的答案实际上非常简单。有了机器学习模型背后的理论证明,我们至少可以证明,当满足或多或少的现实条件时,有一定的最优解保证。没有它,我们将没有任何保证。当然,您可以说“让我们检查一下有效的方法并将其用于特定的问题”,但这是不可行的,因为有无数种方法可以解决任何机器学习问题。

说,要预测一些,给予一定的。您怎么知道不是解决它的最佳方法?什么?还是?也许只返回作为您的预测?或者,如果为奇数,请使用,否则返回?当然,所有这些建议听起来都是荒谬的,但是如果没有任何理论,您怎么能确定其中一个不是最佳选择呢?有了无限数量的可能解决方案,即使是最简单的问题也变得无法解决。理论限制了针对某些问题类别的可行模型的“搜索空间”(您知道哪些模型值得考虑,哪些模型不值得考虑)。X X + 42 X + 42.5 YXX+42X+42.5 42XX+420X4242XX+420


2
检查您训练有素的模型是否在验证和测试集上工作还不够?像理论界线有什么保证,如果它们的界线实际上无法使用?
查理·帕克

6
@CharlieParker好了,用交叉验证所有启动模式,使是,这将需要多长时间才能找到最好的一个?请注意,这只是一个非常简单的模型,您可以做更多的事情然后添加常量,因此在检查了无数个此类模型后,您将需要检查无数个模型中的无数类...此外:您怎么知道交叉验证“有效”?您从理论上知道这一点。Ç - X+cc(,)
蒂姆

5

只看一个问题:机器学习的理论和原则追求真的那么重要吗?

定义“重要”的含义。从哲学的角度来看,这是您要描述或理解某些事物的根本区别。在一个粗略的答案中,这是科学与其他之间的区别。它的实际部分与根本问题无关。如果某件事很难证明,甚至无法证明,这本身就是一个重要发现。(输入Goedel等人。)但这并不意味着它是无关紧要的。从务实的角度来看,这似乎至少是无关紧要的。但这至少应被认为是最重要和有价值的东西。

考虑一个类比:医学作为一个整体(从过去开始)是不科学的。在某些方面,它实际上不可能存在。这是一门完全受其结果支配的学科。在大多数情况下,没有像“真相”这样的东西。但是事实证明,某些部分实际上是科学的-这就是大多数计划中的进度正在发生的地方。

另一个非常简短的描述可能是:没有理论,您可以赚很多钱。如果对于“更大的好处”确实有用,那么您甚至可能因此获得诺贝尔奖。但是您永远不会获得菲尔兹奖章。


1
+1我认为这是对OP的有趣回答,但是请您详细说明医学是非科学的。难道不是要找出让病人感到不适的诊断过程吗?是否应该进行鉴别诊断(怀疑疾病的理论概念)并收集数据以预测哪种疾病最可能发生的过程?...
IWS

(续)...是否存在预后,医生会尝试根据可用数据来估计疾病的未来发展,通常可以通过随访和经验发现来检查这些数据?最后,科学是对更高但存在的真理的追求,还是我们近似我们认为现在存在的真理的建构?
IWS

实际上,医学问题更深一些。科学基本上只是方法或过程。为了使科学“运转”,您必须具有在假想的内在可能性下以相等的基础检验假设的能力。简而言之:如果您不能证明一个理论是错误的,那就是非科学的。对于医学而言,这具有太多的伦理学涵义,并且由于您不能在同一时间使用不同的选择来对待某人,因此假设检验真的很难。[...]
天使

关于第二部分(科学是对真理的追求),同样,这只是一种方法。这似乎是人类提出的最成功的方法。但这不是基于信仰,而是基于事实。在某些方面,它也是一个封闭的系统。真理与看起来是一样的结构之间没有(科学的)区别。科学家之间的共识可能会给您一些经验法则(例如Occams Razor),但是在非科学的海洋中科学不是指南针。
天使

5

几个世纪以来,人类已经能够在没有物理定律的情况下建造船只,马车和建筑物。但是自现代科学以来,我们已经能够将这些技术提升到一个全新的水平。经过验证的理论可以原则上进行改进。如果没有物质和计算的数学理论,我们永远不会登上月球,也不会拥有计算机。

机器学习与其他领域一样,只是科学和工程学的另一个领域。机器学习的一种原则方法为我们提供了内核机器,结构化学习和集成方法(增强,随机森林)。


5

这是我自己工作中的一个简单示例。

我将很多神经网络用于持续的结果。一个通过反向传播确定权重。最终,它将收敛。

现在,顶层激活功能是身份,而我的损失是平方误差。从理论上讲,我知道最小化平方误差损失的顶级权重向量是旧的 ,其中是最高级别的激活,是结果。当我对顶层权重使用封闭形式的解决方案来使反向传播短路时,我只需要反向传播来优化较低层的权重。 Ay

(ATA)1ATy
Ay

我的网络收敛得更快

谢谢,理论。


3

经验主义与理论

你写了:

对理论的最大批评之一是,由于很难做到,他们通常最终会研究一些非常有限的案例,或者必须提出的假设实质上使结果无用。

我认为,这表明了两种观点之间的主要区别,我们可以将它们称为经验主义理论主义

从经验的角度来看,正如您所描述的,定理是没有用的,因为定理从来没有足够复杂到无法模拟现实世界。他们谈论简化的理想方案,这些方案在现实世界中都不会应用。那么做理论的重点是什么。

但是,从理论的角度来看,情况恰恰相反。除了“我在此数据集上运行此方法,比在同一数据集上运行其他方法更好”之外,经验主义还能教给我们什么。这对于一个实例很有用,但对于该问题只字不提。

理论所做的是提供一些保证。它还使我们能够精确地研究简化的方案,以便我们可以开始了解正在发生的事情。

想象一个实际的例子:您想看看概念漂移(当数据随时间变化时)如何影响您的学习能力。一个纯粹的经验主义者将如何处理这个问题?他真正能做的就是开始运用不同的方法,并思考他能做的技巧。整个过程可能与此类似:

  • 过去300天,尝试检测该变量的均值是否已更改。好吧,这有点奏效。
  • 如果我们尝试200天呢?
  • 好的,让我们尝试在发生漂移后更改算法。
  • 获取更多的数据集,看看到目前为止开发的哪种方法效果最好。
  • 结果不是结论性的,也许您猜想有不止一种类型的概念漂移?
  • 尝试模拟。如果我们模拟一些概念漂移,然后使用不同的天数来检测变化是否发生而应用不同的方法,该怎么办?

我们在几个数据集上得到的结果非常精确。也许是这样的数据,使得基于过去200天的观察结果更新学习算法的准确性最高。但是对于其他数据也可以使用吗?这200天的估算值有多可靠?模拟可以帮助-但它们不能反映现实世界-同样的问题理论也是如此。

现在从理论的角度想象一下:

  • 将方案简化到荒谬的水平。也许使用2变量正态分布,其平均值会随时间突然变化。
  • 清楚选择您的条件-选择对常规数据最佳的模型。假设您知道数据是正常的。您所不知道的是均值何时发生。
  • 一种用于检测何时发生换档的方法。同样可以从200个过去的观察开始。
  • 基于这些设置,我们应该能够计算出分类器的平均误差,算法花费的平均时间确实可以检测出是否发生了更改并进行了更新。可能是最坏的情况,并且保证在95%的机会水平内。

现在,这种情况更加清晰了-我们能够通过修复所有细节来隔离问题。我们知道分类器的平均误差。大概可以估计检测到更改已发生的天数。推导这取决于什么参数(例如更改的大小)。并且现在基于某种东西产生了切实可行的解决方案。但最重要的是:这个结果(如果正确计算)是不变的。它永远在这里,任何人都可以从中学到。

就像现代机器学习之父之一一样,JürgenSchmidhuber喜欢说:

启发式方法来来往往–定理是永恒的。

其他领域的经验教训

还简短地想提及一些与物理学的相似之处。我认为他们也曾经遇到过这种困境。物理学家正在研究无限质量的无摩擦物体在无限空间内移动。乍一看,这能告诉我们有关现实的信息,我们想知道雪花如何在风中运动。但是,感觉就像理论在很大程度上推动了它们的发展。


2

您提到了一些原因,在我看来,解释机器学习结果的能力是最重要的。可以说,由AI驱动的财产看守决定射击邻居的狗。理解为什么这样做很重要。如果不能防止这种情况在将来发生,那么至少要了解谁应该承担责任,谁将要支付所有者赔偿。

但是,对我而言,最重要的原因是了解算法所基于的原理可以理解其局限性并提高其性能。考虑在ML中使用欧几里德距离。在许多聚类算法中,首先要定义示例之间的距离,然后继续查找示例特征之间的边界,以将它们分组为相似度。一旦增加要素数量,欧几里得距离就在某个点停止工作。您可能会花费大量时间尝试使其生效,或者-如果您知道欧几里德距离作为接近度量在无限的维数范围内不起作用-只需切换到其他距离度量标准(例如“曼哈顿”),然后继续工作即可关于实际问题。您可以找到很多这样的例子,


2
我以前听过这个断言,但我想我还不知道有任何具体的例子可以证明这一点:是否有一些数据示例不能很好地与欧几里得距离聚类,而与曼哈顿距离可以很好聚类呢?
变形虫说莫妮卡(Monica)恢复职权

1
@amoeba 是常见的参考,尽管我之前是在不同的上下文中遇到过的。如果查看单元超立方体内部超球体的体积比率,则随着超立方体的维数达到无穷大,它会缩小为零。基本上,在更高的维度上,所有凸形体都会塌陷成点-我的解释是
阿克萨卡尔邦

2

我认为,要进行哲学讨论是非常困难的。我的回答实际上是对这里已经提到的优点的重新表述(全部为+1);我只想指出安德鲁·盖尔曼(Andrew Gelman)的一句话,他确实是作为受过计算机科学家培训的人对我说的。我给人的印象是,许多称之为机器学习的人也来自计算机科学。语录摘自盖尔曼在2017年纽约R大会上发表的名为`` 理论统计学是应用统计学的理论''的演讲:

理论是可扩展的。

理论告诉您在某些情况下什么是有意义的,什么是没有意义的。我们是否想做成千上万的模拟以了解真相?我们是否想对越来越多的基准数据集进行经验比较?这将需要一段时间,并且我们的结果可能仍然很脆弱。此外,我们如何知道我们所做的比较有意义?我们怎么知道我们的新深度学习器具有99.5%的准确度,实际上比老旧的深度学习器具有99.1%的准确度好?一些理论会在这里有所帮助。

我是模拟的忠实拥护者,并且经常使用它们来理解世界(甚至理解理论),但是理论机器学习是应用机器学习的理论。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.