在吴安德(Andrew Ng)的机器学习课程中,他使用以下公式:
他做了一个快速证明,如下所示:
没有任何评论,证明似乎非常密集,我很难理解它。从第二平等到第三平等到底发生了什么?
在吴安德(Andrew Ng)的机器学习课程中,他使用以下公式:
他做了一个快速证明,如下所示:
没有任何评论,证明似乎非常密集,我很难理解它。从第二平等到第三平等到底发生了什么?
Answers:
对该符号进行了微妙但严重的滥用,使许多步骤变得混乱。让我们回到矩阵乘法,转置,迹线和导数的定义来解决这个问题。对于那些希望省略说明的人,只需跳至最后一节“将所有内容放在一起”,即可看到严格的演示有多简短。
对于表达有道理当阿是米× Ñ矩阵,乙必须是(正方形)Ñ × Ñ矩阵和Ç必须是米× p矩阵,从那里的产品是一种米× p矩阵。为了得到迹线(对角线元素的总和,Tr (X )= ∑ i X i i i),则p = m,使C 方阵。
符号“ ”似乎是指所述衍生物的表达相对于甲。通常,微分是对函数f :R N → R M进行的运算。在一个点处的导数X ∈ [R Ñ是线性变换d ˚F (X ):- [R ñ → ř中号。选择这些向量空间的基数后,这种变换可以表示为M × N矩阵。 这里情况不同!
取而代之是,将A视为R m n的元素:将其系数展开(通常逐行或逐列)到长度为N = m n的向量中。函数˚F (甲)= Tr的(甲乙甲' Ç )具有实数值,从那里中号= 1。因此,D f (x )必须为1 × m n矩阵:它是一个行向量,表示。但是,问题中的计算使用了另一种表示线性形式的方法:它们的系数回滚到m×n矩阵中。
令为常数m × n矩阵。然后,根据迹线和矩阵乘法的定义,
这表示的系数的最通用的线性组合:ω是与A形状相同的矩阵,并且在第i行和第j列的系数是线性组合中的A i j的系数。因为ω 我Ĵ甲我Ĵ = 甲我Ĵ ω 我Ĵ,所起的作用ω和阿可切换时,给予相当于表达
通过识别一个常数矩阵与任一功能甲→ Tr的(甲ω ')或甲→ Tr的(ω 甲'),我们可以表示上的空间线性形式米× Ñ矩阵作为米× Ñ矩阵。 (不要将它们与从R n到R m的函数的导数混淆!)
从定义中可以最轻松,最可靠地计算出统计中遇到的许多矩阵函数的导数:您实际上并不需要诉诸复杂的矩阵微分规则。这个定义说,当且仅当存在线性变换L使得在x 处可微分,使得
为任意小的位移。小-OH表示法是指在近似差所产生的误差˚F (X + ħ )- ˚F (X )由大号ħ是任意比的尺寸小ħ为足够小ħ。特别是,我们可能总是忽略与|成正比的误差。h | 2。
让我们将定义应用于相关函数。用两个的乘积来乘,扩展和忽略该术语,
为了确定导数,我们必须将其转化为形式(1 )。在右边的第一项是已经在该形式中,与ω = 乙甲' Ç。右边的其它术语具有以下形式Tr的(X ħ ' Ç )为X = 甲乙。让我们这样写:
那么,这里是一个完整的解决方案。
因为这仅花费了大约一半的工作,并且仅涉及矩阵和迹线(乘法和转置)的最基本操作,所以必须将其视为结果的更简单且可以说更直观的演示。如果您真的想了解原始演示中的各个步骤,则可以将它们与此处显示的计算进行比较,这很有用。