Questions tagged «loss-function»

5
为什么成本函数使用平方误差?
我刚刚开始进行一些机器学习,直到现在我一直在处理一个变量的线性回归。 我了解到有一个假设,即: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x 要了解好值的参数和θ 1,我们希望尽量减少计算结果和我们的测试数据的实际结果之间的差别。所以我们减去θ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 从1到m的所有。因此,我们计算该差的总和,然后将总和乘以1来计算平均值iii111mmm。到现在为止还挺好。这将导致:1m1m\frac{1}{m} 1m∑mi=1hθ(x(i))−y(i)1m∑i=1mhθ(x(i))−y(i)\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)} 但这不是建议。相反,该课程建议采用差的平方值,然后乘以。因此公式为:12m12m\frac{1}{2m} 12m∑mi=1(hθ(x(i))−y(i))212m∑i=1m(hθ(x(i))−y(i))2\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 这是为什么?为什么在这里使用平方函数,为什么要乘以而不是112m12m\frac{1}{2m}?1m1m\frac{1}{m}

4
噪声对比估计(NCE)损失的直观解释?
我从以下两个来源了解到NCE(一种候选抽样形式): Tensorflow写 原始纸 有人可以为我提供以下帮助: NCE的工作原理的简单说明(我发现上面的内容很难解析和理解,因此直观的方法可以很好地介绍此处的数学知识) 在上面的第1点之后,自然而然地描述了它与负采样有何不同。我可以看到公式略有变化,但无法理解数学。在以下情况下,我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本,V并仅对那些样本进行更新,因为它们|V|很大,因此可以加快速度。如果有误,请更正。 何时使用哪一个,如何决定?如果您可以包括示例(可能易于理解的应用程序),那就太好了。 NCE比负采样好吗?哪种方式更好? 谢谢。

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


2
旋转角度的参数化回归
假设我有一个自上而下的箭头图片,并且我想预测该箭头所成的角度。这将在到度之间,或者在到。问题在于该目标是圆形的,度和度是完全相同的,这是我希望在目标中纳入的不变性,这将有助于显着地推广(这是我的假设)。问题是我没有找到解决这个问题的干净方法,是否有任何论文试图解决这个问题(或类似的问题)?对于它们的潜在缺点,我确实有一些想法:0003603603600002π2π2\pi000360360360 使用S形或tanh激活,将其缩放到(范围,并将圆形属性合并到损失函数中。我认为这将相当困难,因为如果它在边界上(最差的预测),则只有很小的噪音会推动砝码向另一方向移动。而且,更接近于和边界的值将更难达到,因为绝对预激活值将需要接近无穷大。0,2π)0,2π)0, 2\pi)0002π2π2\pi 回归到和这两个值,并根据这两个值所成的角度计算损耗。我认为这有更大的潜力,但此向量的范数不受限制,这可能会导致数值不稳定,并可能导致训练过程中爆炸或趋于零。可以通过使用一些怪异的正则化函数来防止此规范离1太远,从而解决此问题。xxxyyy 其他选项可能会对正弦和余弦函数有所帮助,但我感觉到这样的事实,即多个预激活映射到相同的输出也会使优化和泛化变得非常困难。

3
数据不平衡的Tensorflow调整成本函数
我有一个高度不平衡的数据分类问题。我已经读到,过高,过低的采样率以及更改代表性不足的分类输出的成本将导致更好的拟合度。在此之前,tensorflow会将每个输入归类为多数组(并获得超过90%的准确度,这是毫无意义的)。 我注意到,每个组的倒数百分比的对数已经成为我尝试过的最佳乘数。成本函数是否有更标准的操纵方式?是否正确实施? from collections import Counter counts = Counter(category_train) weightsArray =[] for i in range(n_classes): weightsArray.append(math.log(category_train.shape[0]/max(counts[i],1))+1) class_weight = tf.constant(weightsArray) weighted_logits = tf.mul(pred, class_weight) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(weighted_logits, y)) optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.