短版
长版
数学建模的好处是它很灵活。这些确实是等效的损失函数,但是它们源自数据的非常不同的基础模型。
公式1
从所述第一符号导出伯努利概率模型对,这是在常规定义。在此模型中,结果/标签/类别/预测由遵循分布的随机变量表示。因此,它的可能性为:
yÿ 乙Ë ř Ñ Ò ù 升升我(p )P (Ý = Ý | p )= 大号(p ; Ý )= p Ý(1 - p )1 - Ý = { 1 - p ÿ = 0 p y = 1{0,1}YBernoulli(p)
P(Y=y | p)=L(p;y)=py (1−p)1−y={1−ppy=0y=1
对于。使用0和1作为指标值,我们可以将最右边的分段函数简化为简洁的表达式。p∈[0,1]
如您所指出的,然后可以通过让,将链接到输入数据的矩阵。从这里开始,简单的代数运算表明与问题中的第一个(提示:)。因此,使上的对数损失最小化等效于Bernoulli模型的最大似然估计。X 分对数p = β Ť X 登录大号(p ; Ý )大号(Ý ,β Ť X )(Ý - 1 )= - (1 - Ý ){ 0 ,1 }Yxlogitp=βTxlogL(p;y)L(y,βTx)(y−1)=−(1−y){0,1}
该公式也是广义线性模型的一种特殊情况,对于可逆的可微函数和函数中的分布,公式为指数族。克dY∼D(θ), g(Y)=βTxgD
公式2
实际上。我不熟悉公式2。但是,在支持向量机的公式中在上定义是标准的。拟合SVM对应于最大化
ÿ{ - 1 ,1 }
最大( { 0 ,1 - ÿβŤX } ) + λ ∥ β∥2。
这是约束优化问题的拉格朗日形式。它也是目标函数的正则化优化问题的
一个示例
对于某些损失函数和控制正则化量的标量超参数(也称为“收缩”)应用于。铰链损耗只是的几种下降可能性之一,其中还包括问题中的第二个。 ℓ λ β ℓ 大号(Ý ,β Ť X )
ℓ (y,β)+ λ ∥ β∥2
ℓλβℓ大号(ÿ,βŤX )