机器学习中的能量最小化是什么?


14

我正在阅读有关计算机视觉中不适定问题的优化的信息,并且遇到了以下有关Wikipedia的优化的解释。我不明白的是,为什么他们在计算机视觉中将这种优化称为“ 能量最小化 ”?

优化问题可以通过以下方式表示:

给定:函数从某些集合A到实数f:ARA

寻求:元件使得˚F X 0˚F X 对于所有X ( “最小化”)或使得˚F X 0˚F X 对于所有X (”最大化”)。x0Af(x0)f(x)xAf(x0)f(x)xA

这种表述称为优化问题或数学编程问题(该术语与计算机编程不直接相关,但仍在线性编程中使用,例如,请参见下面的历史记录)。在这个通用框架中可以模拟许多现实和理论问题。在物理学和计算机视觉领域中,使用该技术提出的问题可能将该技术称为能量最小化,说到函数的值代表正在建模的系统的能量。f

Answers:


8

基于能量的模型是用于表示许多机器学习算法的统一框架。他们将推理解释为使能量函数最小化,将学习解释为使损失函数最小化。

能量函数是潜在变量的配置以及示例中提供的输入的配置的函数。推论通常意味着找到低能量构型,或从可能的构型中采样,以便选择给定构型的概率为吉布斯分布。

损失函数是给定许多示例的模型参数的函数。例如,在监督学习问题中,您的损失是目标的总错误。它有时被称为“功能性”,因为它是构成模型的(参数化)功能的功能。

主要论文:

Y. LeCun,S。Chopra,R。Hadsell,M。Ranzato和FJ Huang,“基于能量的学习教程”,《预测结构化数据》,麻省理工学院出版社,2006年。

另请参阅:

LeCun,Y.,&Huang,FJ(2005)。用于基于能量的模型的判别训练的损失函数。在第十届国际人工智能与统计研讨会(AIStats'05)的会议记录中。取自http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato,M.,Boureau,Y.-L.,Chopra,S.和LeCun,Y.(2007年)。统一的基于能源的无监督学习框架。程序 人工智能与统计会议(AI-Stats)。取自http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07


3
您能否进一步解释“他们将推论解释为使能量函数最小化而将学习解释为使损失函数最小化”的含义?能量函数与损失函数有何不同?
Cliff AB

能否请您详细阐述你的答案
iamprem

@CliffAB希望更清楚吗?
Neil G

@NeilG:说实话,我还是有些困惑。对我来说,听起来像“能量函数”与统计学中的似然函数本质上是一样的。这是一个合理的解释,还是我缺少一些更微妙的东西?
Cliff AB

@CliffAB:能量函数可以是对数似然,在这种情况下,总指数能量为1。但是,这甚至没有必要:基于非概率能量的模型不必担心这种归一化,这可以使学习它们比概率模型更有效。这是因为它避免了在配置空间上评估昂贵的积分。
Neil G

2

xt

E=Σxt2

SSE=Σ(yy^)2
y^


1
我认为您将损失与能量混淆了
Neil G

我正在使用信号处理中能量的标准定义。我想,计算机科学/机器学习的人确实倾向于重新定义术语。我来自统计和信号处理的背景
斯坦

您的第一个公式是能量函数。第二个公式是损失函数,因为它不是配置的函数。
尼尔G

@Neil我确定您所引用的论文中所定义的术语正确使用。这与我习惯于SSE能源的
stan
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.