学习和推理之间有什么区别?


20

机器学习研究论文经常将学习和推理视为两个独立的任务,但是我不清楚这是什么区别。例如,在本书中,他们将贝叶斯统计用于这两种任务,但没有提供这种区分的动机。我有几个模糊的想法,可能是什么,但我希望看到一个明确的定义,也许还要反驳或扩展我的想法:

  • 推断某个数据点的潜在变量的值与学习该数据的合适模型之间的区别。
  • 提取方差(推断)与学习方差之间的差异,以便能够提取方差(通过学习输入空间/过程/世界的动态)。
  • 神经科学的类比可能是短期增强/抑制(记忆痕迹)与长期增强/抑制。

4
不确定这是否有帮助,但是在统计学中,您是想将学习看作是推理(主要是贝叶斯)还是估计(主要是频繁性)之间的区别。对于前者,了解一切-潜在变量,参数,预测,模型-是一个推断(返回分布)。对于后者,一些学习问题可能是推理,而其他问题可能是估计问题(它会返回估计值和从理论上讲是基于抽样的不确定性范围)。
conjugateprior

5
“学习”只是训练机器学习算法过程的一种令人回味的隐喻。我认为这里没有太多的见识。
Sycorax说恢复莫妮卡


1
@Winks你看了链接的问题在所有?没有一个答案能使我要明确区分。
Lenar Hoyt

1
@conjugateprior在机器学习中,没有人会说“了解一切-潜在变量,参数,预测,模型-是一种推论”。即使学习和推理都可以产生分布,它们也被认为是完全分开的。
Neil G

Answers:


11

我同意Neil G的回答,但这种替代措辞也许也有帮助:

考虑一个简单的高斯混合模型的设置。在这里,我们可以将模型参数视为混合模型的一组高斯分量(它们的均值和方差,以及每个人在混合中的权重)。

给定一组模型参数,推论是确定哪个组件可能已生成单个给定示例的问题,通常以每个组件的“责任”形式出现。在这里,潜在变量只是组件为其生成给定向量的单个标识符,并且我们正在推断可能是哪个组件。(在这种情况下,推论很简单,尽管在更复杂的模型中推论变得非常复杂。)

学习是在给定模型样本的情况下,确定最适合给定数据的模型参数(或模型参数的分布)的过程:选择高斯的均值,方差和权重。

可以将Expectation-Maximization学习算法视为对训练集进行推理,然后根据该推理学习最佳参数,然后重复进行。推理通常以这种方式在学习过程中使用,但它也具有独立的意义,例如,选择哪个组件在高斯混合模型中生成给定的数据点,以决定隐马尔可夫模型中最可能的隐状态,在更通用的图形模型中估算缺失值...


1
和一个小警告,人们可以选择突破的东西分解成学习与推断这种方式,但可以选择做一大堆的推论:stats.stackexchange.com/questions/180582/...
conjugateprior

为什么这么多行?我想看一个简单的答案,以一两个句子来区分它们。另外,并非所有人都熟悉GMM或EM。
nbro

9

推理是基于单个输入选择配置。学习是根据一些训练示例来选择参数。

在基于能量的模型框架(一种查看几乎所有机器学习架构的方式)中,推理选择一种配置,以在保持参数固定的同时最小化能量函数学习选择参数以最小化损失函数

正如共轭共和党指出的那样,其他人对同一事物使用不同的术语。例如Bishop,使用“推论”和“决定”分别表示学习和推论。 因果推理意味着学习。但是,无论您决定使用哪个术语,这两个概念都是不同的。

神经类比是激发神经元的一种模式,是一种构型;一组链接强度是参数。


@mcb我仍然不知道您所说的“差异”是什么意思。“不变性”在词典中甚至都不是单词。是的,有很多学习算法都依赖于Dougal答案中所述的EM等推断配置。
Neil G

@mcb我也不明白你的问题;也许这将有助于指定示例模型,并具体说明您所讨论的分布/方差/不变量(?)。
Dougal

感谢您的回答。也许我误会了一些东西。
Lenar Hoyt

@NeilG我相信该术语主要用于ML视觉工作中,其中分类决策对于对象平移,旋转,重新缩放等应“不变”。找不到很好的简短参考,但是这里有:en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
共轭

@conjugateprior我有一种感觉,那就是他在说什么,但我想看看他是否会阐明他的问题。
Neil G

4

这看起来像是经典的跨学科术语混淆。OP似乎正在使用类似神经科学的术语,其中所讨论的两个术语可能具有不同的含义。但是,由于“交叉验证”通常处理统计数据和行进学习,因此我将尝试根据这些术语在这些领域的常见用法来回答问题。

在经典统计中,推断只是将您对样本了解的知识并对其(希望地)代表总体进行数学说明的行为。摘自Casella&Berger(2002)的经典教科书:“概率论的主题是建立所有统计数据的基础...通过这些模型,统计学家能够得出有关总体的推论,而推论仅基于检验整体的一部分”。因此,在统计数据中,推断与p值,检验统计数据和采样分布等具体相关。

至于学习,我认为Wasserman的《 All Statistics》(2003年)中的这张表可能会有所帮助:

在此处输入图片说明


这与很多其他教科书不同,包括评论中提到的毕晓普的书。当目标变量是类别时,分类是一种监督学习。单独的“估计”一词含糊不清:通常我们指的是“密度估计”或“参数估计”或“顺序估计”或“最大似然估计”。
Neil G

1
此外,贝叶斯网不仅是有向无环图!它是一种dag,其节点表示命题,其边缘表示概率依存关系。它指定条件独立关系。
Neil G

1
@NeilG很这样。最接近的统计信息翻译可能是“结构方程模型”
conjugateprior

2
在令人沮丧的统计数据中,应该有两行关于数据的信息:CS:训练数据,Statistics:数据。CS:测试数据,统计信息:是吗?
conjugateprior

统计101:武汉理工大学=另一个(希望随机)样本从人口...
Zoë的克拉克

-1

奇怪的是没有人提到这一点,但是只有在概率分布的情况下,您才能进行推断。这里引用维基,引用牛津词典:

统计推断是使用数据分析来推断潜在概率分布的属性的过程(牛津统计词典)

https://zh.wikipedia.org/wiki/Statistical_inference

在传统的神经网络,k-NN或香草SVM的情况下,您没有要估计的概率密度,也没有任何密度的假设,因此,那里没有统计推断。仅培训/学习。但是,对于大多数(所有?)统计程序,您可以同时使用推理和学习,因为这些程序对所讨论的人口分布具有一些假设。


错了 无论如何,您可以根据需要将神经网络解释为产生分布。例如参见1998年阿玛瑞
尼尔摹

没错,还是指定。您可以解释,但最初没有这种解释。
SWIM S.

这是错误的,因为人们将术语推理用于自动编码器等模型。
尼尔·G

那么,是因为有人错误地使用了该术语吗?还是因为他们对神经网络有一些概率解释(我对自动编码器并不十分熟悉)?我从逻辑上证明了为什么一个术语与另一个术语不同。因此,根据上面的定义,我看到那些将术语与NN,k-NN或SVM一起使用的人(除非使用概率解释)在很大程度上滥用了该表示法。
SWIM S.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.