Questions tagged «gradient-descent»

梯度下降是一阶迭代优化算法。要使用梯度下降来找到函数的局部最小值,需要采取与该函数在当前点的梯度(或近似梯度)的负值成比例的步骤。对于随机梯度下降,也有[sgd]标签。

2
小批量梯度下降如何批量更新每个示例的权重?
如果我们批量处理10个示例,我理解我们可以将每个示例的损失相加,但是反向传播在更新每个示例的权重方面如何工作? 例如: 示例1->损失= 2 示例2->损失= -2 这导致平均损失为0(E = 0),那么这将如何更新每个权重并收敛呢?仅仅是通过批次的随机化,我们“希望”早晚收敛?难道这还不是只为最后处理的示例计算第一组权重的梯度吗?

1
Logistic损失函数的梯度
我想问一个与此有关的问题。 我在这里找到了为xgboost编写自定义损失函数的示例: loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) grad <- preds …

2
可以使用Poisson,Gamma或Tweedie分布作为错误分布族来评估Python / scikit-learn中的GLM吗?
试图学习一些Python和Sklearn,但是对于我的工作,我需要运行回归,使用Poisson,Gamma尤其是Tweedie系列的误差分布。 我没有在文档中看到关于它们的任何内容,但是它们在R发行版的几个部分中,因此我想知道是否有人在任何地方看到了Python的实现。如果您可以将我引向Tweedie发行版的SGD实现,那就太酷了!

2
残留网络是否与梯度提升相关?
最近,我们看到了残差神经网络的出现,其中,每个层都由一个计算模块和一个快捷连接组成,该连接保留了该层的输入,例如第i层的输出,表现为: 该网络允许提取残差特征并允许更深的深度,同时对消失的梯度问题更鲁棒,从而实现了最先进的性能。cicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 深入研究了梯度提升,这是机器学习领域中一种非常强大的集成技术,它似乎也对损失的残差执行了一种梯度优化形式,很难不看到某种形式的相似性。 我知道它们相似但不相同 -我注意到的一个主要区别是,梯度增强对加法项进行了优化,而残差网络优化了整个网络。 我没有看到He等人在他们的原始论文中注意到这是他们动机的一部分。因此,我想知道您对此主题有何见解,并要求您共享自己拥有的有趣资源。 谢谢。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
如何通过反向传播训练SVM?
我想知道是否可以使用反向传播训练SVM(例如,将其简化为线性模型)? 目前,我处于障碍之中,因为我只能考虑将分类器的输出编写为 F(X ; θ ,b )= SGN (θ ·&X - (b + 1 ))= SGN (克(x ; θ ,b ))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) 因此,当我们尝试计算“向后传递”(传播错误)时,我们得到 因为的导数是 sgn(x)dsgn(x)∂Ë∂X= ∂Ë∂F(x ; θ ,b )∂F(x ; θ ,b )X= ∂Ë∂F(x ; θ ,b )∂SGN (克(x ; θ ,b ))∂G(x …


1
是否可以通过随机梯度下降从P(X)的非iid样本和P(Y | X)的iid样本中训练P(Y | X)的模型?
当在某些数据集上通过随机梯度下降训练参数化模型(例如,使似然性最大化)时,通常假设从训练数据分布中抽取训练样本。因此,如果目标是建模联合分布,则应从该分布中得出每个训练样本。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 如果目标是为条件分布P(Y | X)建模P(Y|X)P(Y|X)P(Y|X),那么iid需求将如何变化(如果有的话)? 我们还必须从联合分布中抽取每个样本(xi,yi)(xi,yi)(x_i,y_i) iid吗? 我们应该从P(X)绘制xixix_i iid ,然后从P(Y | X)绘制y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 我们可以从P(X)中得出xixix_i不是iid (例如随时间相关),然后从P(Y | X)中得出y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 您能否评论这三种随机梯度下降方法的有效性?(或在必要时帮助我重新说明问题。) 如果可能的话,我想做#3。我的应用程序是强化学习,其中我使用参数化条件模型作为控制策略。状态序列xixix_i是高度相关的,但是从状态为条件的随机策略中,对操作yiyiy_i进行了iid采样。结果样本(xi,yi)(xi,yi)(x_i,y_i)(或它们的子集)用于训练策略。(换句话说,想象在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随着时间而相互关联,动作也将根据状态独立地生成。)这是有点类似的情况提出。 我发现了一篇论文,Ryabko,2006年,“ 有条件独立数据的模式识别 ”,乍一看似乎很有意义。然而,那里的情况是从我需要什么,在这里逆转(标签/分类/动作)可以被延伸不IID,和(对象/模式/状态)从绘制IID。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新: Ryabko论文中提到的两篇论文(此处和此处)似乎与此处相关。他们假设来自任意过程(例如,不是iid,可能是非平稳的)。他们表明,在这种情况下,最近邻估计和核估计是一致的。但是我更感兴趣的是在这种情况下基于随机梯度下降的估计是否有效。xixix_i

4
梯度下降优化
我正在尝试了解ML(机器学习)算法中的梯度下降优化。我知道这里有一个成本函数,其目的是使误差最小。在权重被优化以提供最小误差且使用偏导数的情况下,它是在每个步骤中同时改变和还是将其组合(例如,在几次迭代中仅被改变,当不再减小误差时,导数以?该应用程序可以是线性回归模型,逻辑回归模型或增强算法。ÿ^- ÿy^−y\hat y-yw1个,w2w1,w2w_1, w_2w1个w1w_1w2w2w_2w1个w1w_1w1个w1w_1w2w2w_2

2
在梯度下降中使用固定步长时,为什么步长会变小?
假设我们正在做一个关于梯度合适的玩具示例,使用固定步长最小化二次函数。()α = 0.03 甲= [ 10 ,2 ; 2 ,3 ]XŤ一个XxTAxx^TAxα = 0.03α=0.03\alpha=0.03甲= [ 10 ,2 ; 2 ,3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 如果在每次迭代中绘制的轨迹,我们将得到下图。当我们使用固定步长时,为什么点变得“非常密集” ?直观地,它看起来不像固定步长,而是递减的步长。Xxx PS:R代码包括情节。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, …


1
梯度提升如何像梯度下降一样?
我正在阅读有关梯度增强的有用的Wikipedia条目(https://en.wikipedia.org/wiki/Gradient_boosting),并尝试了解如何/为什么我们可以通过最陡峭的下降步骤(也称为伪梯度)来近似残差)。谁能给我关于最陡峭的下降如何联系/类似于残差的直觉?帮助非常感谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.