每门Coursera机器学习课程的正则化线性回归成本函数的推导


12

几个月前,我通过Coursera上了Andrew Ng的课程“机器学习”,没有关注大多数的数学/派生,而是专注于实现和实用性。从那时起,我开始回头研究一些基础理论,并重新审视了吴教授的一些演讲。我正在阅读他关于“正则化线性回归”的演讲,发现他给出了以下成本函数:

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

然后,他为此成本函数给出了以下梯度:

θjJ(θ)=1m[i=1m(hθ(x(i))y(i))xj(i)λθj]

我对他如何从一个人到另一个人感到困惑。当我尝试进行自己的推导时,结果如下:

θjJ(θ)=1m[i=1m(hθ(x(i))+y(i))xj(i)+λθj]

区别在于Ng教授公式中原始成本函数和正则化参数之间的“加号”变为其梯度函数中的“减号”,而这并不是我的结果。

凭直觉我理解为什么它是负数:我们通过梯度图减少theta参数,并且我们希望正则化参数减少为避免过度拟合而改变参数的数量。我只是在支持这种直觉的演算上停留了一点。

仅供参考,您可以在此处的幻灯片15和16中找到甲板。


1
结果中,在y ^(i)前面有一个“ + ”,这是错字吗?
史蒂夫·S

Answers:


12

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

现在

θj(hθ(x(i))y(i))2=2[(hθ(x(i))y(i))θj{hθ(x(i))}]

θj(hθ(x(i))=[x(i)]j

θjλj=1nθ2=2λθj

所以对于线性情况

θjJ(θ)=1m[i=1m(hθ(x(i))y(i))xj(i)+λθj]

看来您和安德鲁都可能有错别字。好吧,我们三个人中至少有两个似乎如此。


它已确认,只是Andrew笔记上的错字,应该是+号。教授正确地正确解释了一切,包括直觉θ(1-α(λ/ m)),这意味着每次收缩θ然后减去正则化之前的普通部分。
Gob00st


1

实际上,我认为这只是一个错字。

αλθα

合理?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.