用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。
Qn 1.可以公平地说,机器学习中用于估计参数的“基本”思想是:“损失函数”
[注:给我的印象是机器学习算法经常优化损失函数,因此会产生上述问题。]
问题2:是否有任何文献试图弥合统计学与机器学习之间的鸿沟?
[注:也许,通过将损失函数与最大似然联系起来。(例如,OLS等于正态分布错误的最大可能性等)
用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。
Qn 1.可以公平地说,机器学习中用于估计参数的“基本”思想是:“损失函数”
[注:给我的印象是机器学习算法经常优化损失函数,因此会产生上述问题。]
问题2:是否有任何文献试图弥合统计学与机器学习之间的鸿沟?
[注:也许,通过将损失函数与最大似然联系起来。(例如,OLS等于正态分布错误的最大可能性等)
Answers:
如果统计数据全部是关于最大可能度,那么机器学习就是关于最小化损失。由于您不知道将来的数据会造成的损失,因此请尽量减少近似值,即经验损失。
例如,如果您有一个预测任务,并根据错误分类的数量进行评估,则可以训练参数,以便最终模型在训练数据上产生的错误分类的数量最少。“分类错误数”(即0-1损失)是一种很难处理的函数,因为它不可微,因此您可以使用平滑的“替代”对其进行近似。例如,对数丢失是0-1丢失的上限,因此您可以将其最小化,这与最大化数据的条件似然性相同。对于参数模型,此方法等效于逻辑回归。
在结构化建模任务中,对数损失近似为0-1损失,您得到的与最大条件似然不同,而将(条件)边际似然的乘积最大化。
为了更好地估算损失,人们注意到,将损失最小化并将其用作未来损失的估计的训练模型是过于乐观的估计。因此,为了更准确地(真正的未来损失)最小化,他们在经验损失上添加了一个偏差校正项并将其最小化,这被称为结构化风险最小化。
在实践中,找出正确的偏差校正项可能太难了,因此您要在偏差校正项的“实质”中添加一个表达式,例如,参数平方和。最后,几乎所有的参数化机器学习监督分类方法最终都会训练模型,以最大程度地减少以下
其中是向量w参数化的模型,i接管所有数据点{ x i,y i },L是您的真实损失的近似计算近似值,P (w )是一些偏差校正/正则化项
例如,如果你的,ÿ ∈ { - 1 ,1 },典型的做法是让米(X )= 符号(瓦特⋅ X ),大号(米(X ),ÿ )= - 日志(Ý × (X ⋅ 瓦特)),P (,和选择 q通过交叉验证
我将给出详细的答案。可以按需提供更多引用,尽管这并不引起争议。
我认为各领域之间没有差距,只有许多不同的方法在一定程度上重叠。我觉得没有必要将它们划分为具有明确区别和相似之处的系统学科,并且鉴于它们的发展速度,我认为这注定是注定要失败的企业。
我没有足够的声誉,因此无法发表评论(此评论的合适位置),但是问题所有者认为该答案是最佳答案,这点很重要。
“如果统计数据全部是关于最大可能度,那么机器学习就是关于最小化损失。”
可能性是损失函数。最大化似然性与最小化损失函数相同:偏差是对数似然函数的-2倍。类似地,找到最小二乘解是关于最小化描述残差平方和的损失函数。
ML和统计信息均使用算法来优化某些功能(广义上)对数据的拟合。优化必然涉及最小化某些损失函数。
答案很简单-机器学习中没有参数估计!我们不假定我们的模型等同于某些隐藏的背景模型;我们将现实和模型都视为黑盒,并尝试摇动模型盒(官方术语中的训练),以使其输出与现实盒相似。
通过优化对看不见的数据的准确性(无论定义如何;原则上期望使用的优点),不仅可以根据训练数据来选择可能性,还可以根据训练数据来选择整个模型。这样可以优化精度和召回率。这导致了泛化能力的概念,这取决于学习者的类型以不同的方式实现。
问题二的答案在很大程度上取决于定义。我仍然认为非参数统计是将两者联系在一起的东西。