Questions tagged «gradient»

2
线性回归的梯度提升-为什么不起作用?
在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。 明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。 我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。 我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?


2
通过输入得出单层神经网络的梯度,链规则中的算子是什么?
问题是: 对于使用Sigmoid作为输入->隐藏,softmax用于隐藏->输出的单个隐藏层神经网络,得出具有相对熵损失的输入层的梯度。 我可以使用链式规则来完成大部分推导,但是我不确定如何将它们实际“链式”在一起。 定义一些符号 r=xW1+b1r=xW1+b1 r = xW_1+b_1 h=σ(r)h=σ(r) h = \sigma\left( r \right) ,是S型函数σσ\sigma θ=hW2+b2θ=hW2+b2 \theta = hW_2+b_2 , y^=S(θ)y^=S(θ) \hat{y} = S \left( \theta \right) ,是softmax函数SSS J(y^)=∑iy日志y^一世J(y^)=∑一世ÿ日志⁡ÿ^一世 J\left(\hat{y}\right) = \sum_i y \log\hat{y}_i ,是实标号单热向量ÿÿy 然后根据链式规则 ∂Ĵ∂X= ∂Ĵ∂θ·&∂&θ∂H·&∂&H∂[R·&∂&[R∂X∂Ĵ∂X=∂Ĵ∂θ⋅∂θ∂H⋅∂H∂[R⋅∂[R∂X \frac{\partial J}{\partial \boldsymbol{x}} = \frac{\partial J}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} \cdot …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.