Questions tagged «loss-functions»

用于根据模型量化观察数据和预测值之间差异的函数。损失函数的最小化是一种估计模型参数的方法。

2
为什么会有两种不同的逻辑损失表述/符号?
我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的,唯一的区别是标签的定义。yyy 公式/符号1,:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 其中p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)},其中逻辑函数将实数\ beta ^ T x映射βŤXβŤX\beta^T x到0.1区间。 公式/符号2,ÿ∈ { − 1 ,+ 1 }ÿ∈{-1个,+1个}y \in \{-1, +1\}: 大号(ÿ,βŤx )= 对数(1 + 经验(- ÿ·&βŤx))大号(ÿ,βŤX)=日志⁡(1个+经验值⁡(-ÿ⋅βŤX)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 选择一种表示法就像选择一种语言一样,使用一种或另一种是有利有弊。这两种表示法的优缺点是什么? 我试图回答这个问题的尝试是,统计学界似乎喜欢第一种表示法,而计算机科学界似乎喜欢第二种表示法。 第一种表示法可以用术语“概率”来解释,因为逻辑函数将实数βŤXβŤX\beta^Tx为0.1区间。 第二种表示法更简洁,可以更轻松地与铰链损失或0-1损失进行比较。 我对吗?还有其他见解吗?

2
硬边际支持向量机的损失函数是什么?
人们说软边距SVM使用铰链损耗函数:。但是,软裕量SVM尝试最小化的实际目标函数为 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max(0,1-y_i(w ^ \ intercal x_i + b) ) 有些作者称\ | w \ | ^ 2项正则化器和\ max(0,1-y_i(w ^ \ intercal x_i + b))项损失函数。max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) 但是,对于硬边界SVM,整个目标函数只是 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 是否意味着硬边界SVM仅使正则化函数最小化而没有任何损失函数?听起来很奇怪。 好吧,如果在这种情况下12∥w∥212‖w‖2\frac{1}{2}\|w\|^2是损失函数,我们可以称其为二次损失函数吗?如果是这样,为什么硬边界SVM的损失函数在软边界SVM中成为正则化器,并从二次损失变为铰链损失?

1
为什么神经网络的成本函数是非凸的?
这里有一个类似的线程(神经网络的成本函数是非凸的?),但我无法理解那里答案的要点,我再次询问的原因希望这可以澄清一些问题: 如果我使用差额成本函数平方和,那么我最终将优化形式的某物,其中是训练期间的实际标签值相位,是预测标签值。由于它具有正方形形式,因此应该是凸成本函数。那么,什么会使它在NN中不凸?Σñ我= 1(y一世- ÿ一世^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2ÿyyy^y^\hat{y}

5
如何控制随机森林中错误分类的成本?
是否有可能控制R包randomForest中错误分类的代价? 在我自己的工作中,误报(例如,由于一个人可能患有疾病而导致的错误失误)比误报的代价要高得多。软件包rpart允许用户通过指定损失矩阵来不同程度地加权错误分类,从而控制错误分类成本。是否有类似的东西存在randomForest?例如,我是否应该使用该classwt选项来控制Gini标准?

3
训练损失随时间增加[重复]
这个问题已经在这里有了答案: 成本函数的变化如何为正? (1个答案) 当我的神经网络不学习时该怎么办? (5个答案) 上个月关闭。 我正在训练一个模型(递归神经网络)来对4种类型的序列进行分类。在我进行训练时,我看到训练损失不断减少,直到正确分类训练批次中超过90%的样本为止。但是,几个时代之后,我注意到训练损失增加了,而我的准确性却下降了。这对我来说似乎很奇怪,因为我希望在训练集上表现会随着时间的推移而改善,而不会恶化。我正在使用交叉熵损失,我的学习率为0.0002。 更新:事实证明学习率太高。较低的足够低的学习率,我不会观察到这种行为。但是我仍然觉得这很奇怪。关于这种情况发生的原因,欢迎任何好的解释

6
机器学习用于估计参数的“基本”思想是什么?
用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。 Qn 1.可以公平地说,机器学习中用于估计参数的“基本”思想是:“损失函数” [注:给我的印象是机器学习算法经常优化损失函数,因此会产生上述问题。] 问题2:是否有任何文献试图弥合统计学与机器学习之间的鸿沟? [注:也许,通过将损失函数与最大似然联系起来。(例如,OLS等于正态分布错误的最大可能性等)

3
0-1损失函数说明
我试图了解损失函数的用途,但我不太了解。 因此,据我所知,损失函数是用于引入某种度量的,我们可以用它来度量不正确决策的“成本”。 假设我有一个包含30个对象的数据集,我将它们划分为20/10这样的训练/测试集。我将使用0-1损失函数,所以可以说我的类标签集为M,函数看起来像这样: L (i ,j )= { 0i = j1个i ≠ j我,Ĵ ∈ 中号大号(一世,Ĵ)={0一世=Ĵ1个一世≠Ĵ一世,Ĵ∈中号 L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M 因此,我在训练数据上构建了一个模型,可以说我正在使用Naive Bayes分类器,并且该模型正确地分类了7个对象(为它们分配了正确的类别标签),并且错误地分类了3个对象。 因此我的损失函数将返回“ 0” 7次和“ 1” 3次-我可以从中获得什么样的信息?我的模型对30%的对象进行了错误分类吗?还是还有更多呢? 如果我的思维方式有任何错误,我感到非常抱歉,我只是在尝试学习。如果我提供的示例“太抽象”,请告诉我,我将尝试更加具体。如果您尝试使用其他示例来解释该概念,请使用0-1损失函数。

1
在损失函数之间进行选择以进行二进制分类
我在一个问题域中工作,人们经常报告ROC-AUC或AveP(平均精度)。但是,最近我发现有一些论文可以优化对数损失,而另一些则报告了Hinge Loss。 虽然我了解这些指标的计算方式,但我很难理解它们之间的取舍,而这恰好对我们有好处。 当谈到ROC-AUC与Precision-Recall时,该线程讨论了如何将ROC-AUC最大化视为使用损失优化标准,该标准对“将真实负数至少定为真实正数进行惩罚”(假设更高分数对应于肯定)。此外,与Precision-Recall指标相比,该其他线程还提供了有关ROC-AUC的有用讨论。 但是,对于哪种类型的问题,相对于ROC-AUC,AveP或 Hinge损失,对数丢失是优选的吗?最重要的是,在二元分类的这些损失函数之间进行选择时,应该问什么类型的问题?

4
贝叶斯和常驻点估计量在什么条件下重合?
对于平坦的先验,ML(频率-最大似然)和MAP(贝叶斯-最大后验)估计量是重合的。 但是,更笼统地说,我说的是作为某些损失函数的优化子而得出的点估计量。即 )X(x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)} 其中EE\mathbb{E}是期望算子,LLL是损失函数(最小为零),x^(y)x^(y)\hat x(y) 是估计器,给定参数x的数据y,并且随机变量用大写字母表示。yyyxxx 是否有人知道LLL,xxx和y的pdf yyy,施加的线性度和/或无偏度的任何条件,这些条件在哪些条件下估计会重合? 编辑 …

2
通常做法是将批次的平均损失而不是总和减到最小?
Tensorflow有一个有关对CIFAR-10进行分类的示例教程。在本教程中,批次中的平均交叉熵损失最小。 def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss tensor of type float. """ # Calculate the average cross entropy loss across the …

2
当我在逻辑回归设置中使用平方损失时,这里发生了什么?
我正在尝试使用平方损失对玩具数据集进行二进制分类。 我正在使用mtcars数据集,使用英里/加仑和重量来预测传输类型。下图显示了两种不同颜色的传输类型数据,以及由不同损失函数生成的决策边界。平方损失是 ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2,其中yiyiy_i是地面实况标签(0或1)和pipip_i是预测概率pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i)。换句话说,我将逻辑损失替换为分类设置中的平方损失,其他部分相同。 对于一个玩具的例子 mtcars数据,在很多情况下,我得到的模型与逻辑回归相似(请参见下图,随机种子为0)。 但是在某些方面(如果我们这样做 set.seed(1)),平方损失似乎效果不佳。 这是怎么回事 优化不收敛?与平方损失相比,逻辑损失更易于优化?任何帮助,将不胜感激。 码 d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …


4
损失函数的全面概述?
我试图对机器学习中的一些基本思想有一个整体的认识,我想知道是否对不同的损失概念(平方,对数,铰链,代理等)进行了全面的处理。我正在按照约翰·兰福德(John Langford)关于损失函数语义学的出色文章进行更全面,正式的介绍来考虑一些问题。

5
Yolo损失函数说明
我试图了解Yolo v2损失函数: λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} 如果有人可以详细说明功能。

3
铰链损失与物流损失的优缺点/局限性
铰链损失可以使用定义max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)和日志损失可以被定义为log(1+exp(−yiwTxi))log(1+exp⁡(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 我有以下问题: 铰链丢失是否存在任何缺点(例如,对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)? 一个与另一个相比有什么区别,优点和缺点?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.