统计,线性代数和机器学习中的经典符号是什么?这些符号之间有什么联系?
当我们阅读一本书时,理解符号在理解内容方面起着非常重要的作用。不幸的是,对于模型和优化问题的公式化,不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗? 我在这里举一个例子:在线性代数文学中,经典著作是Strang 对线性代数的介绍。本书中最常用的符号是 Ax=bAx=b A x=b 其中是系数矩阵,是要求解的变量,是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式,OLS优化问题是x b xAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 在统计学或机器学习素养(摘自《统计学学习的要素》一书中)中,人们使用不同的表示法来表示同一件事: Xβ=yXβ=yX \beta= y 其中XXX是数据矩阵,ββ\beta是要学习的学习系数或权重,yyy是响应。人们之所以使用它,是因为统计或机器学习社区中的人们是数据驱动的,因此数据和响应对他们来说是最有趣的事情,他们使用XXX和yyy来表示。 现在我们可以看到所有可能的混淆:第一个方程式中的AAA与第二个方程式中的X相同XXX。在第二个方程中,XXX不需要解决。同样针对以下术语:AAA是线性代数中的系数矩阵,但它是统计中的数据。ββ\beta也称为“系数”。 另外,我提到Xβ=yXβ=yX \beta=y并不是人们在机器学习中广泛使用的确切名称,人们使用半矢量化版本来汇总所有数据点。如 min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) 我认为这样做的原因是,当谈论随机梯度下降和其他不同的损失函数时,它是很好的。同样,对于线性回归以外的其他问题,简洁的矩阵符号也消失了。 逻辑回归的矩阵符号 任何人都可以对不同文献的符号进行更多的总结吗?我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。 请不要受到我的示例 Ax=bAx=bA x=b和Xβ=yXβ=yX \beta=y。还有很多。如 为什么会有两种不同的逻辑损失表述/符号?