统计，线性代数和机器学习中的经典符号是什么？这些符号之间有什么联系？

26

当我们阅读一本书时，理解符号在理解内容方面起着非常重要的作用。不幸的是，对于模型和优化问题的公式化，不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗？

我在这里举一个例子：在线性代数文学中，经典著作是Strang 对线性代数的介绍。本书中最常用的符号是

A x = b

$A x=b$

其中是系数矩阵，是要求解的变量，是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式，OLS优化问题是 $A$ $x$ $b$ $x$

\underset{x}{minimize} ‖ A x - b ‖^{2}

$\underset{x}{\text{minimize}}~~ \|A x-b\|^2$

在统计学或机器学习素养（摘自《统计学学习的要素》一书中）中，人们使用不同的表示法来表示同一件事：

X β = y

$X \beta= y$

其中 $X$ 是数据矩阵， $\beta$ 是要学习的学习系数或权重， $y$ 是响应。人们之所以使用它，是因为统计或机器学习社区中的人们是数据驱动的，因此数据和响应对他们来说是最有趣的事情，他们使用 $X$ 和 $y$ 来表示。

现在我们可以看到所有可能的混淆：第一个方程式中的 $A$ 与第二个方程式中的相同 $X$ 。在第二个方程中， $X$ 不需要解决。同样针对以下术语： $A$ 是线性代数中的系数矩阵，但它是统计中的数据。 $\beta$ 也称为“系数”。

另外，我提到 $X \beta=y$ 并不是人们在机器学习中广泛使用的确切名称，人们使用半矢量化版本来汇总所有数据点。如

min \sum_{i} L (y_{i}, f (x_{i}))

$\min \sum_i \text{L}(y_i,f(x_i))$

我认为这样做的原因是，当谈论随机梯度下降和其他不同的损失函数时，它是很好的。同样，对于线性回归以外的其他问题，简洁的矩阵符号也消失了。

逻辑回归的矩阵符号

任何人都可以对不同文献的符号进行更多的总结吗？我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。

请不要受到我的示例 $A x=b$ 和 $X \beta=y$ 。还有很多。如

为什么会有两种不同的逻辑损失表述/符号？

machine-learning probability self-study optimization

— hxd1011
source

5

作为某种外部可验证的真相，符号并不真正存在。这是一种语言，因此它本身就是上下文，需要重新定义。如果我写x * b并说这意味着矩阵x点乘积矢量b，无论它是粗体还是粗体。

— Sycorax说恢复莫妮卡

3

我会说和具有等效的表示法。只是变量的名称已更改。通常，即使在字段中，也不会在纸张之间找到一致的变量命名。

A x = b

$Ax = b$

X β = y

$X \beta = y$

— user20160

6

目前，有10个投票，150个视图；它似乎是一个有价值且有用的线程。而且，它有一个赞成的答案。因此，我认为它的回答范围并不广。

— gung-恢复莫妮卡

3

我同意@gung的观点，社区对此问题显然有兴趣。我提名重新开放。

— 马修·德鲁里

1

我认为常规q太宽泛了。-但由于它已经是CW并颇受人们欢迎，我添加了我的投票权，以重新开放那里的四家公司。

— Scortchi-恢复莫妮卡

Answers:

18

也许一个相关的问题是：“不同语言中使用了哪些单词，这些单词之间的联系是什么？”

标记在某种意义上就像语言：

有些单词具有特定于区域的含义；一些词被广泛理解。
就像强大的国家传播他们的语言一样，成功的领域和有影响力的研究人员也传播他们的概念。
语言会随着时间而发展：语言既有历史渊源又有现代影响。

您的具体问题...

我不同意您的论点，即两者遵循“完全不同的表示法”。两个和用大写字母表示矩阵。他们不是说不同。 $X\boldsymbol{\beta} = \boldsymbol{y}$ $A\mathbf{x} = \mathbf{b}$
机器学习与统计这个高度成熟的领域高度相关。使用表示数据矩阵几乎可以肯定是遵循的最易读，最标准的约定。虽然是求解线性系统的标准方法，但统计人员并不是用这种方法编写正态方程的。如果尝试这样做，您会发现听众更加困惑。在罗马的时候... $X$ $A\mathbf{x} = \mathbf{b}$
从某种意义上讲，您要修改的问题的核心是：“使用字母表示数据和使用字母表示要求解的未知变量的统计量的历史起源是什么？”
- 这是统计历史学家的问题！简短地搜索一下，我发现有影响力的英国统计学家和剑桥学者Udny Yule 在他的《统计理论导论》（1911年）中用表示数据。他写了一个回归方程，最小二乘目的是使最小，并且解。至少可以追溯到那时... $x$ $x_1 = a + bx_2$ $\sum\left( x_1 - a - bx_2\right)^2$ $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$
- 更具影响力的RA Fisher 在其1925年的《研究人员统计方法》一书中将用作因变量，将用作自变量。（@Nick Cox的提示，以提供具有信息的链接。） $y$ $x$

好的符号就像是好的语言。尽可能避免使用特定领域的行话。用相当于高BBC英语的数学语言编写，这种语言对于大多数讲英语的人都是可以理解的。人们应该尽可能使用清晰易懂的符号来书写。

— Matthew Gunn
source

1

这位业余统计历史学家可以对Yule从来都不是教授进行过学究的修正。更有趣的是，在jeff560.tripod.com/stat.html上有一个相关的网站，除了它目前似乎处于关闭状态。

— 尼克·考克斯

2

math.hawaii.edu/~tom/history/stat.html似乎是副本。我理解，系统惯例（例如希腊语中的参数约定和罗马式中的变量约定）在很大程度上是由于RA Fisher所致，但是存在许多保留，例如样本chi-square统计量的并没有消失的迹象。

χ^{2}

$\chi^2$

— 尼克·考克斯

@NickCox很棒的链接jeff560.tripod.com/stat.html（对我来说...），它引用了Yule和RA Fisher！回归的最早数学起源显然可以追溯到高斯和拉普拉斯，但在我完整的业余搜索中，他们似乎使用了不同的符号。

— 马修·冈恩

在我撰写本文时，jeff560.tripod.com / stat.html是2014年更新；www.math.hawaii.edu/~tom/history/stat.html是2007

— Nick Cox

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.