如何计算Fisher标准权重？

我正在研究模式识别和机器学习，并且遇到了以下问题。

考虑一个具有相同先验概率的两类分类问题
$P (D_{1}) = P (D_{2}) = \frac{1}{2}$ $P(D_1)=P(D_2)= \frac{1}{2}$
以及每个类中实例的分布

$p (x | D_{1}) = N ([\begin{matrix} 0 \\ 0 \end{matrix}], [\begin{matrix} 2 & 0 \\ 0 & 1 \end{matrix}]),$ $p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right),$
$p (x | D_{2}) = N ([\begin{matrix} 4 \\ 4 \end{matrix}], [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]) .$ $p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right).$
如何计算Fisher标准权重？

更新2：我的书提供的计算权重为：。 $W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} \end{bmatrix}$

更新3：正如@xeon所暗示的，我了解我应该确定Fisher判别式的投影线。

更新4：令为投影线的方向，然后费舍尔线性判别方法发现最佳是准则函数最大化的剩下的挑战是如何获得数值向量？ $W$ $W$ $W$

— 霍尚博士
source

您的第一个分布是不确定的。特别是，该对的第二个变量具有退化分布，方差为0，但与第一个变量确实具有正协方差，这是不可能的。

— owensmartin 2015年

@owensmartin您有什么想法，如何计算这些值？

— Hoshang博士2015年

Fisher准则权重的定义是什么？

— Vladislavs Dovgalecs

我的意思是，费舍尔的线性判别式由矢量w给出，该矢量最大化...在每种材料上都注明，例如p。luthuli.cs.uiuc.edu/~daf/courses/Learning/Kernelpapers/…。2.好吧@xeon吗？

— Hoshang博士，2015年

提示：这两类之间的界限是什么？线性，多项式，还有其他吗？

— Vladislavs Dovgalecs 2015年

Answers:

在您链接到的论文之后（Mika等，1999），我们必须找到来最大化所谓的广义瑞利商， $\mathbf{w}$

\frac{w^{⊤} S_{B} w}{w^{⊤} S_{W} w},

$\frac{\mathbf{w}^\top \mathbf{S}_B \mathbf{w}}{\mathbf{w}^\top \mathbf{S}_W \mathbf{w}},$

其中for表示和协方差， $\mathbf{m}_1, \mathbf{m}_2$ $\mathbf{C}_1, \mathbf{C}_2$

\begin{aligned} S_{B} & = (m_{1} - m_{2}) (m_{1} - m_{2})^{⊤}, & S_{W} & = C_{1} + C_{2} . \end{aligned}

$\begin{align} \mathbf{S}_B &= (\mathbf{m}_1 - \mathbf{m}_2)(\mathbf{m}_1 - \mathbf{m}_2)^\top, & \mathbf{S}_W &= \mathbf{C}_1 + \mathbf{C}_2. \end{align}$

可以通过计算广义特征值问题来找到解决方案特征值通过求解，然后求解本征向量。在您的情况下，所述行列式此2×2矩阵的可以用手来计算。

\begin{aligned} S_{B} w = λ S_{W} w, \end{aligned}

$\begin{align} \mathbf{S}_B\mathbf{w} = \lambda \mathbf{S}_W\mathbf{w}, \end{align}$

λ

$\lambda$

\begin{aligned} det (S_{B} - λ S_{W}) = 0 \end{aligned}

$\begin{align} \det(\mathbf{S}_B - \lambda \mathbf{S}_W) = 0 \end{align}$

w

$\mathbf{w}$

S_{B} - λ S_{W} = (\begin{matrix} 16 - 3 λ & 16 \\ 16 & 16 - 2 λ \end{matrix}) .

$\mathbf{S}_B - \lambda \mathbf{S}_W = \begin{pmatrix}16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda\end{pmatrix}.$

特征值最大的特征向量使瑞利商最大化。我没有手动进行计算，而是使用来解决了Python中的广义特征值问题scipy.linalg.eig，得到了这与您在书中找到的解决方案不同。下面，我绘制了找到的权重向量的最佳超平面（黑色）和在书中找到的权重向量的hyperplane（红色）。

w_{1} \approx 0.5547, w_{2} \approx 0.8321,

$w_1 \approx 0.5547, w_2 \approx 0.8321,$

$\hskip1in$ 在此处输入图片说明

— 卢卡斯
source

这个例子很有趣。两条线将这两个类别分开，但是从学习理论的角度来看，其中之一是“更好”的。

— Vladislavs Dovgalecs 2015年

有关Fisher准则的详细信息，请参见books.google.com/…

— nini

@Lucas可能有问题的结果接近于至强注释，“也许我们应该报告单位矢量w，因为超平面是由方向而不是幅度来定义的。”不是吗？

— nini 2015年

哦！具有挑战性的问题，我建议所有人都参阅dml.ir/wp-content/uploads/2012/04/SPR-S12-M-Sol.pdf

— user153695

@卢卡斯谢谢。您是否可以另外添加W = [-2/3 -2/3]和W = [-4/3 -2/3]和W = [-2 -3]的图片，并用三种不同的颜色查看边界？谢谢。我为您提供了一个很好的答案。

— nini 2015年

$\mathbf{SOLUTION 1:}$

继杜达等。（模式CLassification）具有@lucas的替代解决方案，在这种情况下，手工计算非常容易。（希望此替代解决方案有帮助！:)）

在两类LDA中，目标是：

$\frac{w^TS_Bw}{w^TS_Ww}$ 只是意味着增加类之间的方差并减少类内部的方差。

其中和，这里是协方差矩阵，分别是1类和2类的均值。 $S_B = (m_1-m_2)(m_1-m_2)^T$ $S_W = S_1 + S_2$ $S_1,S_2$ $m_1,m_2$

该广义罗利商的解是广义特征值探针。

$S_Bw = \lambda S_Ww \rightarrow {S_W}^{-1}S_Bw = \lambda w$

上述制剂具有封闭形式的溶液。是基数为 1阶矩阵，因此可以归一化以得到答案。 $S_B$ $m_1-m_2$ $w \propto {S_W}^{-1}(m1-m2)$

我只计算了并得到[0.5547; 0.8321]。 $w$

${S_W}^{-1}(m1-m2) = {(S_1 + S_2)}^{-1}(m1 - m2) = {(\begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} + \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix})}^{-1}(\begin{bmatrix} 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 4 \\ 4 \end{bmatrix} ) ={(\begin{bmatrix} 1/3 & 0 \\ 0 & 1/2 \end{bmatrix})}(\begin{bmatrix} 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 4 \\ 4 \end{bmatrix} ) = \begin{bmatrix} -1.3333 \\ -2.0000 \end{bmatrix} \propto \begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$

参考：杜达，哈特，鹳的模式分类

$\mathbf{SOLUTION 2:}$

或者，可以通过找到广义特征值问题的特征向量来解决。 $S_Bw = \lambda S_Ww$

可以通过形成中的多项式，该多项式的解将是的特征值。现在，假设您有一组本征值作为多项式的根。现在用得到对应的特征向量作为方程线性系统的解。通过对每个i执行此操作，您可以获得一组向量，它是一组本征向量作为解。 $determinant(S_B - \lambda S_W)$ $S_Bw = \lambda S_Ww$ $\lambda_1,\lambda_2, ..., \lambda_n,$ $\lambda = \lambda_i, i \in \{1,2,..,n\}$ $S_Bw_i = \lambda_i S_Ww_i$ $\{w_i\}_{i=1}^{n}$

$determinant(S_B - \lambda S_W) = \begin{bmatrix} 16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda \end{bmatrix} =6\lambda^2 - 80\lambda$ ，因此特征值是根于多项式。 $6\lambda^2 - 80\lambda$

因此 0和40/3是两个解决方案。对于LDA，对应于最高特征值的特征向量就是解决方案。 $\lambda=$

方程组且 $(S_B - \lambda_i S_W)w_i = 0$ $\lambda_i = 40/3$

原来是 $\begin{bmatrix} 16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda \end{bmatrix}w_i \propto \begin{bmatrix} -72 & 48 \\ 48 & -32 \end{bmatrix}w_i = 0$

上述方程组的解为，与先前的解相同。 $\begin{bmatrix} -0.5547 \\ -0.8321 \end{bmatrix} \propto \begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$

或者，我们可以说位于的空空间中。 $\begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$ $\begin{bmatrix} -72 & 48 \\ 48 & -32 \end{bmatrix}$

对于两类LDA，具有最高特征值的特征向量是解决方案。通常，对于C类LDA，具有最高C-1本征值的第一个C-1本征向量构成解决方案。

该视频介绍了如何计算简单特征值问题的特征向量。（https://www.khanacademy.org/math/linear-algebra/alternate_bases/eigen_everything/v/linear-algebra-finding-eigenvectors-and-eigenspaces-example）

以下是一个示例。 http://www.sosmath.com/matrix/eigen2/eigen2.html

多类LDA：http : //en.wikipedia.org/wiki/Linear_discriminant_analysis#Multiclass_LDA

计算矩阵的零空间：https： //www.khanacademy.org/math/linear-algebra/vectors_and_spaces/null_column_space/v/null-space-2-calculation-the-null-space-of-a-matrix

— 德沙胡吉
source

好答案，这意味着书的答案是错误的！好？

— Hoshang博士2015年

我相信这个答案是正确的，如果您的书对和定义不同，那么您会发现这些定义对您有什么帮助。

S_{W}

$S_W$

S_{B}

$S_B$

— dksahuji 2015年

-1.33等于-4/3，但第二个元素不同。也许书报告单位向量w？是不是非常感谢

— Hoshang博士2015年

请完成解决方案2，以达到W的价值来兑现

— nini 2015年

@ Dr.Hoshang：您书中的解决方案是错误的。我不知道为什么。

— 变形虫说莫妮卡（