“在要素和类之间共享参数”是什么意思

阅读本文时，有一行写着“线性分类器在要素和类之间不共享参数”。这句话是什么意思？这是否意味着线性分类器（例如逻辑回归）需要相互独立的特征？

machine-learning logistic-regression multilabel-classification

我将尝试通过logistic回归（最简单的线性分类器之一）回答这个问题。

逻辑回归的最简单的情况是，如果我们有一个二元分类任务（ $y \in\{0,1\})$ 和仅一个输入要素（ $x \in R$ ）。在这种情况下，逻辑回归的输出为：

\hat{y} = σ (w \cdot x + b)

$\hat y = σ(w \cdot x + b)$ 其中和

均为标量。模型

与

属于类别

的概率相对应。

w

$w$

b

$b$

\hat{y} \in [0, 1]

$\hat y \in [0,1]$

x

$x$

1

$1$

我们将尝试将短语“线性分类器在要素和类之间不共享参数”分解为两部分。我们将分别检查多个功能和多个类的情况，以查看逻辑回归是否共享任何任务的参数：

线性分类器是否在要素之间共享参数？

在这种情况下，对于每个示例，是采用二进制值的标量（如之前），而是长度为的向量（其中是特征数）。在此，输出是输入特征的线性组合（即这些特征加上偏差的加权总和）。 $y$ $x$ $N$ $N$

\hat{y} = σ (\sum_{i}^{N} (w_{i} \cdot x_{i}) + b) o r σ (w \cdot x + b)

$\hat y = σ \left(\sum_i^N{(w_i \cdot x_i)} + b\right) \;\; or \;\; σ( \mathbf w \cdot \mathbf x + b)$ 其中和是长度向量。乘积产生标量。从上面可以看到，每个输入要素都有一个单独的权重，并且这些权重是绝对独立的。由此可以得出结论，特征之间没有参数共享。

x

$\mathbf x$

w

$\mathbf w$

N

$N$

x \cdot w

$\mathbf x \cdot \mathbf w$

w_{i}

$w_i$

x_{i}

$x_i$

线性分类器在类之间共享参数吗？

在这种情况下，是标量，但是是长度为的向量（其中是类别数）。为了解决这个问题，逻辑回归本质上为类别中的每个类别产生了单独的输出。每个输出都是标量并且对应于属于类的概率。 $x$ $y$ $M$ $M$ $y_j$ $M$ $y_j \in [0,1]$ $x$ $j$

\hat{y} = w \cdot x + b, w h e r e \hat{y} = {\hat{y}}_{1}, {\hat{y}}_{2}, . . ., y_{M}

$\mathbf{ \hat y} = w \cdot \mathbf x + \mathbf b, \;\; where \;\; \mathbf{ \hat y} = {\hat y_1, \hat y_2, ..., y_M}$

最简单的方法是将简单的独立 logistic回归输出为： $M$

{\hat{y}}_{j} = σ (w_{j} \cdot x + b_{j})

$\hat y_j = σ(w_j \cdot x + b_j)$

从以上内容可以明显看出，不同类别之间没有共享权重。

多功能和多类：

通过结合以上两种情况，我们最终可以得出具有多个功能和多个类的最普通的情况：

\hat{y} = σ (W \cdot x + b)

$\mathbf{ \hat y} = σ( \mathbf W \cdot \mathbf x + \mathbf b)$ 其中是一个大小为的向量，是一个大小为的向量，是大小的矢量和是大小的矩阵。

\hat{y}

$\mathbf{ \hat y}$

M

$M$

x

$\mathbf x$

N

$N$

b

$\mathbf b$

M

$M$

W

$W$

(N \times M)

$(N \times M)$

无论如何，线性分类器在要素或类之间不共享任何参数。

为了回答您的第二个问题，线性分类器确实有一个基本的假设，即功能需要独立，但这不是本文作者打算说的。

— 吉布2011
source

很好的解释。:)

— joydeep bhattacharjee