机器学习用于估计参数的“基本”思想是什么？

19

用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。

Qn 1.可以公平地说，机器学习中用于估计参数的“基本”思想是：“损失函数”

[注：给我的印象是机器学习算法经常优化损失函数，因此会产生上述问题。]

问题2：是否有任何文献试图弥合统计学与机器学习之间的鸿沟？

[注：也许，通过将损失函数与最大似然联系起来。（例如，OLS等于正态分布错误的最大可能性等）

— 克吉蒂尔·哈沃森
source

3

对于试图弥合虚拟差距的这些问题，我没有兴趣。这一切的目的是什么？此外，还有许多其他观点在统计中具有根本意义……损失函数至少有100年的历史了。可以像这样减少统计量吗？也许您的问题与数据挖掘/统计/机器学习中的基础概念有关，但是您却称其为...然后该问题已经存在，并且stats.stackexchange.com/questions/372/…范围太广。

— 罗宾吉拉德

好吧，我对机器学习或其与统计的联系了解不多。无论如何，请看以下问题：stats.stackexchange.com/questions/6/…，这表明至少回答相同问题的方法是不同的。想知道它们之间是否存在某种联系是“不自然的”吗？是的，我同意统计学中有很多想法。这就是为什么我在报价单中具有基本知识，而将范围限制在估算感兴趣的参数上的原因。

@Srikant之间有什么联系？请注意，我真的很想搜索到定义明确的对象之间的链接，我发现这很自然。

— 罗宾吉拉德

6

可以说，作为机器学习者，我在这里是要告诉您我们最大限度地提高了可能性。每时每刻。机器学习论文的负载始于“嘿，看我的可能性，看它如何分解，看着我最大化”。我建议，就推理技术而言，声称这两种学科的基础都是危险的。与您参加哪个会议有关！

— Mike Dewar

6

我认为贝叶斯主义者不会同意最大可能性是统计学的基本思想。

— 马克·克莱森

17

如果统计数据全部是关于最大可能度，那么机器学习就是关于最小化损失。由于您不知道将来的数据会造成的损失，因此请尽量减少近似值，即经验损失。

例如，如果您有一个预测任务，并根据错误分类的数量进行评估，则可以训练参数，以便最终模型在训练数据上产生的错误分类的数量最少。“分类错误数”（即0-1损失）是一种很难处理的函数，因为它不可微，因此您可以使用平滑的“替代”对其进行近似。例如，对数丢失是0-1丢失的上限，因此您可以将其最小化，这与最大化数据的条件似然性相同。对于参数模型，此方法等效于逻辑回归。

在结构化建模任务中，对数损失近似为0-1损失，您得到的与最大条件似然不同，而将（条件）边际似然的乘积最大化。

为了更好地估算损失，人们注意到，将损失最小化并将其用作未来损失的估计的训练模型是过于乐观的估计。因此，为了更准确地（真正的未来损失）最小化，他们在经验损失上添加了一个偏差校正项并将其最小化，这被称为结构化风险最小化。

在实践中，找出正确的偏差校正项可能太难了，因此您要在偏差校正项的“实质”中添加一个表达式，例如，参数平方和。最后，几乎所有的参数化机器学习监督分类方法最终都会训练模型，以最大程度地减少以下

$\sum_{i} L(\textrm{m}(x_i,w),y_i) + P(w)$

其中是向量参数化的模型，接管所有数据点，是您的真实损失的近似计算近似值，是一些偏差校正/正则化项 $\textrm{m}$ $w$ $i$ $\{x_i,y_i\}$ $L$ $P(w)$

例如，如果你的，，典型的做法是让，， $x \in \{-1,1\}^d$ $y \in \{-1,1\}$ $\textrm{m}(x)=\textrm{sign}(w \cdot x)$ $L(\textrm{m}(x),y)=-\log(y \times (x \cdot w))$ ，和选择通过交叉验证 $P(w)=q \times (w \cdot w)$ $q$

— 雅罗斯拉夫·布拉托夫（Yaroslav Bulatov）
source

3

我希望看到这种损失在聚类，kNN或随机蕨类植物中最小化...

好吧，有关k均值最近邻的损失函数表征，请参见本文的相关小节（2.5）：hpl.hp.com/conferences/icml2003/papers/21.pdf

— John L. Taylor，2010年

@John Still，这是有目的的混合目标。在很大程度上，您可以从最小化方面来解释每种算法，并将其称为“损失”。kNN并不是以这样的方式发明的：伙计们，我已经想到了这样的损失，让我们对其进行优化，看看会发生什么！而不是Guys，假设决策在特征空间上的连续性更低，那么如果我们有一个很好的相似性度量……等等。

2

“如果统计数据全部是关于最大化可能性，那么机器学习就是关于最小化损失”，我完全不赞成您的前提。也许这是1920年的统计数字，但今天肯定不是。

— JMS

19

我将给出详细的答案。可以按需提供更多引用，尽管这并不引起争议。

统计信息不仅仅涉及最大化（对数）可能性。对于有原则的贝叶斯主义者而言，这是一种厌恶，他们只是通过适当的模型来更新其后代或传播其信念。
许多统计数据是关于损失最小化的。机器学习也是如此。经验损失最小化在ML中具有不同的含义。要获得清晰的叙述性观点，请查看Vapnik的“统计学习的本质”
机器学习并不仅仅与损失最小化有关。首先，因为ML中有很多贝叶斯函数；其次，因为ML中的许多应用程序都与时间学习和近似DP有关。当然，有一个目标函数，但是它与“统计”学习中的含义有很大不同。

我认为各领域之间没有差距，只有许多不同的方法在一定程度上重叠。我觉得没有必要将它们划分为具有明确区别和相似之处的系统学科，并且鉴于它们的发展速度，我认为这注定是注定要失败的企业。

— 空洞的
source

8

我没有足够的声誉，因此无法发表评论（此评论的合适位置），但是问题所有者认为该答案是最佳答案，这点很重要。

“如果统计数据全部是关于最大可能度，那么机器学习就是关于最小化损失。”

可能性是损失函数。最大化似然性与最小化损失函数相同：偏差是对数似然函数的-2倍。类似地，找到最小二乘解是关于最小化描述残差平方和的损失函数。

ML和统计信息均使用算法来优化某些功能（广义上）对数据的拟合。优化必然涉及最小化某些损失函数。

— 甲壳动物
source

1

好点，主要区别仍然存在。首先，统计是关于将模型拟合到拥有的数据，而ML是将模型拟合到拥有的数据。其次，一个过程所观察到的统计ASSUME完全由他们要挖掘的一些琐碎的琐碎“隐藏”模型驱动，而ML TRIES使某些复杂到足以独立于问题的模型则表现得像现实。

@mbq。这是对统计的相当苛刻的讽刺。我曾在五个大学统计部门工作，但我认为没有见过会想到统计的人。

— 罗伯·海恩德曼

1

@罗布漫画？我认为这就是使统计数据更加精美的原因！您假设所有这些高斯和线性度都可以正常工作-并且有一个被称为泰勒展开的原因。世界是一个复杂的世界，但是线性近似。（通常是复杂度的90％左右）令人尴尬。机器学习（和非参数统计）出现在这少数情况下，这需要一些更微妙的方法。这不是免费的午餐-如果您需要定理，则需要假设。如果您不需要假设，则需要近似方法。

@mbq。很公平。我一定对你的评论有误解。

— 罗伯·海德曼

4

答案很简单-机器学习中没有参数估计！我们不假定我们的模型等同于某些隐藏的背景模型；我们将现实和模型都视为黑盒，并尝试摇动模型盒（官方术语中的训练），以使其输出与现实盒相似。

通过优化对看不见的数据的准确性（无论定义如何；原则上期望使用的优点），不仅可以根据训练数据来选择可能性，还可以根据训练数据来选择整个模型。这样可以优化精度和召回率。这导致了泛化能力的概念，这取决于学习者的类型以不同的方式实现。

问题二的答案在很大程度上取决于定义。我仍然认为非参数统计是将两者联系在一起的东西。

我不确定这是完全正确的。在什么意义上，机器学习方法在没有参数估计的情况下（在参数化或无分布的模型集内）可以工作？

— 约翰·泰勒

1

您正在估计/计算某些东西（确切的术语可能有所不同）。例如，考虑一个神经网络。尝试预测某些东西时，您是否没有计算网络的权重？另外，当您说要训练以使输出与现实相匹配时，您似乎在隐式地谈论某种损失函数。

@ John，@ Srikant学习者有参数，但从统计意义上讲，这些不是参数。考虑线性回归y = a x（没有简单的简化术语）。a是统计方法将适合的参数，假设y = a x。当在训练范围内要求x时，机器学习只会尝试产生一个x（这是有道理的，因为它没有假设y = a x）；它可能适合数百个参数来执行此操作。

3

[需要引用]。换句话说，有趣的答案，尽管它并没有（至少）与许多ML文学有关。

— 令人毛骨悚然的

1

布雷曼的经典著作是《统计模型：两种文化》。

2

我认为机器学习中的参数估计没有基本概念。只要算法有效并且“准确”地预测，ML人群就会很高兴地使可能性或后验最大化。重点是计算，统计结果被广泛使用。

如果您通常在寻找基本概念，那么在计算学习理论中，PAC是至关重要的。在统计学习理论中，结构风险最小化；还有其他领域（例如，请参见John Langford 的Prediction Science帖子）。

在桥接统计数据/机器学习时，分歧似乎过大了。我喜欢卡比的回答到“两种文化”的问题。

— 阿尔斯
source

统计人群在SPSS中随机单击，直到出现所需的p值...

1

通过将损失定义为负对数可能性，可以将似然最大化问题重写为损失最小化问题。如果可能性是独立概率或概率密度的乘积，则损失将是独立项的总和，可以有效地进行计算。此外，如果随机变量是正态分布的，则相应的损耗最小化问题将是最小二乘问题。

如果可以通过重写似然最大化来创建最小损失问题，则应该更喜欢从头开始创建最小损失问题，因为这将导致（希望）更多的最小损失问题。从理论上讲是临时性的。例如，权重（例如，通常用加权最小二乘方来确定）通常只是从重写原始似然最大化问题的过程中得出的，并且已经（希望有）最优值。

— 你好再见
source