Questions tagged «linear-algebra»

与有限维向量空间有关的数学领域,包括矩阵及其操作,在统计中很重要。

9
为什么突然对张量着迷?
我最近注意到,很多人都在开发许多方法的张量等效项(张量分解,张量内核,用于主题建模的张量等),我想知道,为什么世界突然对张量着迷?最近是否有特别令人惊讶的论文/标准结果带来了这一结果?在计算上比以前怀疑的便宜很多吗? 我不是一个傻瓜,我很感兴趣,并且如果有关于这方面的文章的指针,我很想阅读。


5
关于PCA如何从几何问题(具有距离)转变为线性代数问题(具有特征向量)的直观解释是什么?
我读过很多关于PCA,包括各种教程和问题(如这一个,这一个,这一个,而这一个)。 PCA试图优化的几何问题对我来说很清楚:PCA试图通过最小化重建(投影)误差来找到第一个主成分,这同时使投影数据的方差最大化。 当我第一次阅读该书时,我立即想到了线性回归之类的东西。也许您可以根据需要使用梯度下降法解决它。 但是,当我看到通过使用线性代数并找到特征向量和特征值来解决优化问题时,我的想法震惊了。我根本不了解线性代数的这种用法如何发挥作用。 所以我的问题是:PCA如何从几何优化问题变成线性代数问题?有人可以提供直观的解释吗? 我不是在寻找像一个回答这一个,说:“当你解决PCA的数学问题,它最终被等同于找到协方差矩阵的特征值和特征向量。” 请解释为什么特征向量出来是主要成分,为什么特征值出来是投影到它们上的数据的方差 顺便说一句,我是软件工程师,而不是数学家。 注意:上图是从本PCA教程中获取并修改的。

3
SVD背后的直觉是什么?
我已经读过关于奇异值分解(SVD)的文章。在几乎所有的教科书中都提到将矩阵分解为具有给定规格的三个矩阵。 但是,以这种形式拆分矩阵背后的直觉是什么?PCA和其他用于降维的算法在算法具有良好的可视化特性的意义上是直观的,但使用SVD并非如此。




4
为什么吴安德为什么更喜欢使用SVD而不是协方差矩阵的EIG来进行PCA?
我正在从Andrew Ng的Coursera课程和其他材料中学习PCA。在斯坦福大学自然语言处理课程中,cs224n的第一次作业,以及安德鲁·伍的演讲视频(,他们进行奇异值分解而不是协方差矩阵的特征向量分解,而且吴还说SVD在数值上比特征分解更稳定。 根据我的理解,对于PCA,我们应该对(m,n)大小的数据矩阵进行SVD ,而不是对大小的协方差矩阵进行SVD (n,n)。以及协方差矩阵的特征向量分解。 为什么他们使用协方差矩阵而不是数据矩阵的SVD?

3
维中两个随机单位向量的标量积的分布
如果和是中的两个独立的随机单位矢量(均匀分布在单位球面上),它们的标量积(点积)的分布是什么吗?xx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y 我猜想随着的分布迅速增长(?)成为均值为零的正态值,并且在较高维度方差减小但是对于\ sigma ^ 2(D)?DDDlimD→∞σ2(D)→0,limD→∞σ2(D)→0,\lim_{D\to\infty}\sigma^2(D) \to 0,σ2(D)σ2(D)\sigma^2(D) 更新资料 我进行了一些快速模拟。首先,为D = 1000生成10000对随机单位向量,D=1000D=1000D=1000很容易看到它们的点积分布完全是高斯分布(实际上对于D=100D=100D=100,它已经是高斯分布了),请参见左侧的子图。其次,对于从1到10000的每个DDD(以递增的步长),我生成了1000对并计算了方差。对数-对数图显示在右侧,很明显公式很容易被1 / D近似1/D1/D1/D。请注意,对于D=1D=1D=1和D=2D=2D=2此公式甚至可以给出准确的结果(但我不确定以后会发生什么)。

3
随机数据的SVD结果中的怪异相关性;他们有数学解释还是LAPACK错误?
我在随机数据的SVD结果中观察到一个非常奇怪的行为,可以在Matlab和R中重现该行为。是吗? 我从k = 2维高斯中抽取了n=1000n=1000n=1000样本,均值和均方差为零:。我装配它们在数据矩阵。(我可以选择是否使居中,这不会影响以下内容。)然后我执行奇异值分解(SVD)来获得。让我们看一下两个特定元素,例如和,并询问在不同绘制之间它们之间的相关性是什么k=2k=2k=21000 × 2 X X X = û 小号V ⊤ û û 11 ù 22 XX∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I)1000×21000×21000 \times 2XX\mathbf XXX\mathbf XX=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\topUU\mathbf UU11U11U_{11}U22U22U_{22}XX\mathbf X。我希望,如果抽奖次数相当大,则所有此类相关性都应在零附近(即总体相关性应为零,样本相关性将很小)。NrepNrepN_\mathrm{rep} 但是,我观察到U_ {11},U_ {12},U_ {21}和U_ {22}之间以及仅在这些元素之间存在一些奇怪的强相关性(大约)。如预期的那样,所有其他成对的元素都具有约零的相关性。下面是如何用于相关矩阵20的“上”元素\ mathbfù看起来像(第一10个的第一列的元件,则第一10个,第二列的元素):±0.2±0.2\pm0.2U11U11U_{11}U12U12U_{12}U21U21U_{21}U22U22U_{22}202020UU\mathbf U101010101010 请注意,每个象限的左上角都有很高的值。 正是@whuber的评论引起了我的注意。@whuber认为PC1和PC2不是独立的,并提供了这种强相关性作为证据。但是,我的印象是他无意中发现了LAPACK库中的一个数字错误。这里发生了什么? 这是@whuber的R代码: stat <- function(x) {u <- svd(x)$u; c(u[1,1], u[2, 2])}; …

7
为什么对称正定(SPD)矩阵如此重要?
我知道对称正定(SPD)矩阵的定义,但想了解更多。 从直觉上为什么它们如此重要? 这就是我所知道的。还有什么? 对于给定的数据,协方差矩阵为SPD。协方差矩阵是一项重要的指标,有关直观说明,请参见这篇出色的文章。 如果是SPD ,则二次形式是凸的。凸性对于可以确保本地解决方案是全局解决方案的函数是很好的属性。对于凸问题,有很多好的算法可以解决,但对于非凸问题则没有。甲12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cAAA 当为SPD时,二次形式的优化解与线性系统的解相同。因此,我们可以在两个经典问题之间进行转换。这很重要,因为它使我们能够使用在另一个域中发现的技巧。例如,我们可以使用共轭梯度法求解线性系统。减少1AAA甲X=bminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cAx=bAx=bAx=b 有许多很好的算法(快速,数值稳定)对SPD矩阵更有效,例如Cholesky分解。 编辑:我不是想问一下SPD矩阵的身份,而是属性背后的直觉来显示重要性。例如,正如@Matthew Drury所提到的,如果矩阵是SPD,则特征值都是正实数,但是为什么所有正数都重要。@Matthew Drury对流动有一个很好的答案,这就是我想要的。

1
对主题(双)空间中PCA的几何理解
我试图对主成分分析(PCA)在主题(双)空间中的工作方式有一个直观的了解。 考虑具有两个变量x1x1x_1和x2x2x_2以及nnn数据点的2D数据集(数据矩阵XX\mathbf X为n×2n×2n\times 2并假定为居中)。PCA的通常表示是,我们考虑R 2中的nnn个点,记下2 × 2协方差矩阵,并找到其特征向量和特征值。第一个PC对应于最大方差的方向,等等。这是协方差矩阵C = (4 2 2 2)的示例R2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)。红线表示按各自特征值平方根缩放的特征向量。 \hskip 1in 现在考虑一下主题空间中发生了什么(我从@ttnphns学到了这个术语),也称为对偶空间(机器学习中使用的术语)。这是一个nnn维空间,其中两个变量(两列XX\mathbf X)的样本形成两个向量x1x1\mathbf x_1和x2x2\mathbf x_2。每个变量向量的平方长度等于其方差,两个向量之间的夹角余弦等于它们之间的相关性。顺便说一下,这种表示在多元回归的治疗中非常标准。在我的示例中,主题空间如下所示(我只显示了由两个变量向量跨越的2D平面): \hskip 1in 主成分是两个变量的线性组合,将在同一平面上形成两个向量和p 2。我的问题是:如何在这样的图形上使用原始变量矢量来形成主成分变量矢量的几何理解/直觉是什么?给定x 1和x 2,什么几何过程将产生p 1?p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下是我目前对此的部分理解。 首先,我可以通过标准方法计算主要成分/轴并将其绘制在同一图上: \hskip 1in 此外,我们可以注意到,选择要使x i(蓝色矢量)与其在p 1上的投影之间的距离的平方和最小。这些距离是重建误差,并且用黑色虚线显示。等效地,p 1使两个投影的平方长度的总和最大化。这完全指定了p 1,并且当然完全类似于主空间中的类似描述(请参见我对“理解主成分分析,特征向量和特征值”的回答中的动画)。另请参阅@ttnphns答案的第一部分。p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf p_1p1p1\mathbf p_1 但是,这还不够几何!它没有告诉我如何找到这样的,也没有指定其长度。p1p1\mathbf …

1
如何使用主成分分析来白化数据?
我想将数据转换为使得方差将为1而协方差将为零(即,我想白化数据)。此外,均值应为零。XX\mathbf X 我知道我将通过Z标准化和PCA转换达到目标,但是我应该按什么顺序进行? 我应该补充一点,组成的美白转换应采用。x↦Wx+bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} 有没有一种类似于PCA的方法,可以完全完成这两个转换并给出上面形式的公式?

2
为什么Fisher信息矩阵为正半定号?
让。Fisher信息矩阵的定义为:θ ∈ [Rñθ∈Rn\theta \in R^{n} 一世(θ )我,Ĵ= - Ë[ ∂2日志(f(X| θ))∂θ一世∂θĴ∣∣∣θ ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] 如何证明Fisher信息矩阵是正半定的?

1
多元正常后验
这是一个非常简单的问题,但我无法在互联网上或书中的任何地方找到推导。我想看到一个贝叶斯如何更新多元正态分布的推导。例如:想象一下 P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} 观察一组x1...xnx1...xn{\bf x_1 ... x_n},我想计算P(μ|x1...xn)P(μ|x1...xn)\mathbb{P}({\bf \mu | x_1 ... x_n})。我知道答案是P(μ|x1...xn)=N(μn,Σn)P(μ|x1...xn)=N(μn,Σn)\mathbb{P}({\bf \mu | x_1 ... x_n}) = N({\bf \mu_n}, {\bf \Sigma_n})其中 μnΣn==Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σ0(Σ0+1nΣ)−11nΣμn=Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σn=Σ0(Σ0+1nΣ)−11nΣ \begin{array}{rcl} \bf \mu_n &=& \displaystyle\Sigma_0 \left(\Sigma_0 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.